menu

Facebookが機械翻訳の質を劇的に向上させるAI技術を開発

Google翻訳は2016年に「ニューラル機械翻訳(Neural Machine Translation/NMT)」というシステムを導入することで翻訳の質が劇的に向上しました。しかし、既存のシステムは人間が作成した「訓練データ」を必要とするという弱点があったとして、新たにFacebookは訓練データを必要としないAI技術を開発。これによって、これまでは翻訳の質がよくなかったマイナーな言語の翻訳が、劇的に向上するとのことです。

Phrase-Based & Neural Unsupervised Machine Translation
(PDFファイル)https://arxiv.org/pdf/1804.07755.pdf

Unsupervised machine translation: A novel approach to provide fast, accurate translations for more languages – Facebook Code
https://code.fb.com/ai-research/unsupervised-machine-translation-a-novel-approach-to-provide-fast-accurate-translations-for-more-languages/

Facebook’s AI Just Set A New Record In Translation And Why It Matters
https://www.forbes.com/sites/williamfalcon/2018/09/01/facebook-ai-just-set-a-new-record-in-translation-and-why-it-matters/#4616ca493124


2015年にカナダの研究機関であるMontreal Institute for Learning Algorithms(MILA)によって(PDFファイル)機械翻訳を可能にするAI技術が開発されました。Google翻訳にも利用されるMILAのニューラル機械翻訳(Neural Machine Translation/NMT)は、文章をフレーズごとに訳すのではなく一度に全ての文章を翻訳することで、文脈によって変化する単語の意味も考慮することができます。ニューラル機械翻訳により、Google翻訳の質は飛躍的に向上しました。

ただし、ニューラル機械翻訳は翻訳を行う2カ国語の文章のペアを必要としていました。英語とスペイン語間の翻訳を行うには「I like to eat(英語)」と「me gusta comer(スペイン語)」の2つが必要であり、このようなペアが十分でない英語・ウルドゥー語間の翻訳などはうまく機能しないとのこと。翻訳精度を上げるため、研究者はこのようなペアを必要としないシステムの開発に力を入れていました。

by Simson Petrol

そして、2018年8月、Facebook AI Research(FAIR)の研究者たちは、ウルドゥー語・英語間のようにペアが少ない言語における翻訳を劇的に向上させたと発表しました。

機械翻訳結果の自動評価基準の1つであるBLEU(Bilingual Evaluation Understudy)では、1BLEUポイントが「めざましい成果」と評価されるところ、Facebookの新しい技術は10BLEUポイント以上の向上がみられるとのこと。

AIに機械学習を行わせる場合、あらかじめ用意しておいた訓練データ(Labeled data)を学習させる必要があります。この訓練データの作成は、これまで人間が手動で行う必要があり、膨大な労力を必要としました。Facebookの新しい技術は訓練データの作成を必要とせず、たとえば「猫」というラベル付けされた訓練データがなくとも写真に写っているのが猫かどうかを判断できるとのこと。この技術によって、既に失われた過去の言語で書かれた文書を翻訳したり、スワヒリ語のようなあまり使用されない言語をリアルタイム翻訳することが可能になるとみられています。

Facebookの新技術のコアは以下の3つを組み合わせたもの。いずれも、過去の研究で開発されたものです。

1:バイト対符号化
Facebookの技術では「hello」という単語がまるまるシステムに与えられるのではなく、helloを「he」「l」「l」「o」という4つのパートに分けてシステムに与えます。これにより「he(彼)」という言葉を知らなくとも「he」の翻訳が可能になります。単語をより短い単位に分割することで、実質的に未知語をなくすことができるというわけです。

2:言語モデル
言語モデルは分の品詞や統語構造、単語と単語、文書と文書の関係について定式化したもの。これによってより自然な文章を判断することができ、「how is you」を「how are you」に修正することができます。

3:逆翻訳
ユーザーが英語からスペイン語の翻訳を行おうとするとき、システムはスペイン語から英語の逆翻訳を行います。これによってデータの量が増加し、ニューラル翻訳モデルを最適化することが可能になるとのこと。

Facebookのシステムは、上記3つの要素をNMT(neural network-based system)とPBSMT(phrase-based system)のアプローチで組み合わせたもの。NMTとPBSMTはいずれも単体で翻訳の質を上げることができるもので、両方を同時使うことで、非常にいい結果を生み出すことができたとのこと。

なお、Facebookは無料でコードを公開しており、誰でもシステムを構築することが可能となっています。(GIGAZINE)

GitHub – facebookresearch/UnsupervisedMT: Phrase-Based & Neural Unsupervised Machine Translation

 

日本語は文法が異なるのでアルファベット圏と違い自動翻訳はまだまだ使い勝手は悪いのですが、単語なら簡単に調べらるのでGOOGLE翻訳を使っている人は多いかと思います。音声翻訳も徐々に進化して来ていますが、将来的には通訳の仕事も大分減るのではないかと予想されています。

アジアのブロックチェーン・仮想通貨業界における求人数、約1年で50%増

スタートアップに適した国 エストニア

関連記事

  1. シリコンバレーとは違う、フレンチ起業

    サッカーワールドカップロシア大会で優勝したフランスが、「起業大国」という新たな称号を得つつある。20…

  2. 弁当のIoT

    パナソニックは1日、AIVICK(京都市南区)と共同で、IoT(モノのインターネット)技術を活用した…

  3. 誰でもできる初めてのAI

    AIは誰でもできる、という記事があったので、試しに自分の環境で建てて見ました。もちろんライブラリ…

  4. AI都市

    未来のユニコーンを育む 世界のスタートアップ都市

    いま、この都市が熱い!パリ(フランス)マクロン大統領就任も追い風、起業家が生活しやすいパリの…

  5. 【トルコ主要各紙の目玉ニュース】 2018年9月28日

    ワタン紙 「国産テクノロジー、国境で厳重な監視」国境の安全保障のため国力で生産され、地下や地…

  6. 独の教会に「ロボット牧師」

    500年前にマルチン・ルター(1483~1546年)が宗教改革を始めたドイツ東部ウィッテンベルクに、…

  7. できる社員は体力+根性?

    予防医学の一番のテーマは「オフィスワーカーの健康」小林雅氏(以下、小林) IVS特別番組、今回は…

  8. flier

    書籍要約のフライヤー、1冊15分で聴ける音声版をリリース AIの…

    株式会社フライヤーは、書籍要約サービス『flier(フライヤー)』の会員の利便性を高めること、新たな…

暗号通貨相場


最近の記事

  1. AI_chat_smallstart
  2. bar_smallstart
  3. workplace-smallbusiness
  4. proofofconcept

暗号通貨

bitFlyer ビットコインを始めるなら安心・安全な取引所で

為替情報

為替コンバータ

ブログ更新をメールで受け取る

メールアドレスを記入して購読すれば、更新をメールで受信できます。アドレスは管理人でも知られません。

PAGE TOP