menu

Facebookが機械翻訳の質を劇的に向上させるAI技術を開発

Google翻訳は2016年に「ニューラル機械翻訳(Neural Machine Translation/NMT)」というシステムを導入することで翻訳の質が劇的に向上しました。しかし、既存のシステムは人間が作成した「訓練データ」を必要とするという弱点があったとして、新たにFacebookは訓練データを必要としないAI技術を開発。これによって、これまでは翻訳の質がよくなかったマイナーな言語の翻訳が、劇的に向上するとのことです。

Phrase-Based & Neural Unsupervised Machine Translation
(PDFファイル)https://arxiv.org/pdf/1804.07755.pdf

Unsupervised machine translation: A novel approach to provide fast, accurate translations for more languages – Facebook Code
https://code.fb.com/ai-research/unsupervised-machine-translation-a-novel-approach-to-provide-fast-accurate-translations-for-more-languages/

Facebook’s AI Just Set A New Record In Translation And Why It Matters
https://www.forbes.com/sites/williamfalcon/2018/09/01/facebook-ai-just-set-a-new-record-in-translation-and-why-it-matters/#4616ca493124


2015年にカナダの研究機関であるMontreal Institute for Learning Algorithms(MILA)によって(PDFファイル)機械翻訳を可能にするAI技術が開発されました。Google翻訳にも利用されるMILAのニューラル機械翻訳(Neural Machine Translation/NMT)は、文章をフレーズごとに訳すのではなく一度に全ての文章を翻訳することで、文脈によって変化する単語の意味も考慮することができます。ニューラル機械翻訳により、Google翻訳の質は飛躍的に向上しました。

ただし、ニューラル機械翻訳は翻訳を行う2カ国語の文章のペアを必要としていました。英語とスペイン語間の翻訳を行うには「I like to eat(英語)」と「me gusta comer(スペイン語)」の2つが必要であり、このようなペアが十分でない英語・ウルドゥー語間の翻訳などはうまく機能しないとのこと。翻訳精度を上げるため、研究者はこのようなペアを必要としないシステムの開発に力を入れていました。

by Simson Petrol

そして、2018年8月、Facebook AI Research(FAIR)の研究者たちは、ウルドゥー語・英語間のようにペアが少ない言語における翻訳を劇的に向上させたと発表しました。

機械翻訳結果の自動評価基準の1つであるBLEU(Bilingual Evaluation Understudy)では、1BLEUポイントが「めざましい成果」と評価されるところ、Facebookの新しい技術は10BLEUポイント以上の向上がみられるとのこと。

AIに機械学習を行わせる場合、あらかじめ用意しておいた訓練データ(Labeled data)を学習させる必要があります。この訓練データの作成は、これまで人間が手動で行う必要があり、膨大な労力を必要としました。Facebookの新しい技術は訓練データの作成を必要とせず、たとえば「猫」というラベル付けされた訓練データがなくとも写真に写っているのが猫かどうかを判断できるとのこと。この技術によって、既に失われた過去の言語で書かれた文書を翻訳したり、スワヒリ語のようなあまり使用されない言語をリアルタイム翻訳することが可能になるとみられています。

Facebookの新技術のコアは以下の3つを組み合わせたもの。いずれも、過去の研究で開発されたものです。

1:バイト対符号化
Facebookの技術では「hello」という単語がまるまるシステムに与えられるのではなく、helloを「he」「l」「l」「o」という4つのパートに分けてシステムに与えます。これにより「he(彼)」という言葉を知らなくとも「he」の翻訳が可能になります。単語をより短い単位に分割することで、実質的に未知語をなくすことができるというわけです。

2:言語モデル
言語モデルは分の品詞や統語構造、単語と単語、文書と文書の関係について定式化したもの。これによってより自然な文章を判断することができ、「how is you」を「how are you」に修正することができます。

3:逆翻訳
ユーザーが英語からスペイン語の翻訳を行おうとするとき、システムはスペイン語から英語の逆翻訳を行います。これによってデータの量が増加し、ニューラル翻訳モデルを最適化することが可能になるとのこと。

Facebookのシステムは、上記3つの要素をNMT(neural network-based system)とPBSMT(phrase-based system)のアプローチで組み合わせたもの。NMTとPBSMTはいずれも単体で翻訳の質を上げることができるもので、両方を同時使うことで、非常にいい結果を生み出すことができたとのこと。

なお、Facebookは無料でコードを公開しており、誰でもシステムを構築することが可能となっています。(GIGAZINE)

GitHub – facebookresearch/UnsupervisedMT: Phrase-Based & Neural Unsupervised Machine Translation

 

日本語は文法が異なるのでアルファベット圏と違い自動翻訳はまだまだ使い勝手は悪いのですが、単語なら簡単に調べらるのでGOOGLE翻訳を使っている人は多いかと思います。音声翻訳も徐々に進化して来ていますが、将来的には通訳の仕事も大分減るのではないかと予想されています。

アジアのブロックチェーン・仮想通貨業界における求人数、約1年で50%増

スタートアップに適した国 エストニア

関連記事

  1. uber

    ギグ・エコノミーじゃなくて起業家エコノミー

    Uberはそのライドシェアリングのサービスを始めた時から、労働者であるドライバーの福利厚生の欠如や低…

  2. IoTでビジネス価値を生み出す–企業における10の活…

    提供:iStockphoto/Jirsak IoT市場が爆発的な成長と発展を続けるなか、ます…

  3. home-office-smallstart

    全社員がリモート勤務でも成功できたスタートアップの戦略とは?

    「GitLab」はソフトウェア開発環境を支援するサービスで、社内のクローズドな環境でソースコード…

  4. 心肺蘇生ができる人を派遣するアプリがドイツでテスト中!欧州全体で…

    近くにいる人が突然倒れ、心停止したとする。場所が病院でなければ、居合わせたほとんどの人が、救急車を呼…

  5. dobai2

    ドバイに学ぶ観光戦略

    普通であれば忙しいはずの年度末、わざわざ休暇を取ってドバイに行ってきました。お目当ては3月31日の競…

  6. アフリカにおける中古産業用機械の可能性

    〜タンザニアの中小企業開発機構への訪問を通じて〜SIDO(Small Industries De…

  7. Twitch

    ゲーム配信サイトのユーザーを激増させた「非伝統的な戦略」

    君らがバカを見るところは面白そう。だから投資するよ」エメット・シア(34)は、米人気アクセラレー…

  8. ニッポンの大問題 ギグエコノミーの吉凶

    聞き慣れませんが、ギグエコノミーが世界を席巻しそうです。個人が雇われずに仕事を請け負う。自由…

暗号通貨相場


最近の記事

  1. startup
  2. ジュミア・テクノロジーズ
  3. fail
  4. youtuber
  5. regional revitalization

暗号通貨

bitFlyer ビットコインを始めるなら安心・安全な取引所で

為替情報

為替コンバータ

ブログ更新をメールで受け取る

メールアドレスを記入して購読すれば、更新をメールで受信できます。アドレスは管理人でも知られません。

PAGE TOP