menu

Facebookが機械翻訳の質を劇的に向上させるAI技術を開発

Google翻訳は2016年に「ニューラル機械翻訳(Neural Machine Translation/NMT)」というシステムを導入することで翻訳の質が劇的に向上しました。しかし、既存のシステムは人間が作成した「訓練データ」を必要とするという弱点があったとして、新たにFacebookは訓練データを必要としないAI技術を開発。これによって、これまでは翻訳の質がよくなかったマイナーな言語の翻訳が、劇的に向上するとのことです。

Phrase-Based & Neural Unsupervised Machine Translation
(PDFファイル)https://arxiv.org/pdf/1804.07755.pdf

Unsupervised machine translation: A novel approach to provide fast, accurate translations for more languages – Facebook Code
https://code.fb.com/ai-research/unsupervised-machine-translation-a-novel-approach-to-provide-fast-accurate-translations-for-more-languages/

Facebook’s AI Just Set A New Record In Translation And Why It Matters
https://www.forbes.com/sites/williamfalcon/2018/09/01/facebook-ai-just-set-a-new-record-in-translation-and-why-it-matters/#4616ca493124


2015年にカナダの研究機関であるMontreal Institute for Learning Algorithms(MILA)によって(PDFファイル)機械翻訳を可能にするAI技術が開発されました。Google翻訳にも利用されるMILAのニューラル機械翻訳(Neural Machine Translation/NMT)は、文章をフレーズごとに訳すのではなく一度に全ての文章を翻訳することで、文脈によって変化する単語の意味も考慮することができます。ニューラル機械翻訳により、Google翻訳の質は飛躍的に向上しました。

ただし、ニューラル機械翻訳は翻訳を行う2カ国語の文章のペアを必要としていました。英語とスペイン語間の翻訳を行うには「I like to eat(英語)」と「me gusta comer(スペイン語)」の2つが必要であり、このようなペアが十分でない英語・ウルドゥー語間の翻訳などはうまく機能しないとのこと。翻訳精度を上げるため、研究者はこのようなペアを必要としないシステムの開発に力を入れていました。

by Simson Petrol

そして、2018年8月、Facebook AI Research(FAIR)の研究者たちは、ウルドゥー語・英語間のようにペアが少ない言語における翻訳を劇的に向上させたと発表しました。

機械翻訳結果の自動評価基準の1つであるBLEU(Bilingual Evaluation Understudy)では、1BLEUポイントが「めざましい成果」と評価されるところ、Facebookの新しい技術は10BLEUポイント以上の向上がみられるとのこと。

AIに機械学習を行わせる場合、あらかじめ用意しておいた訓練データ(Labeled data)を学習させる必要があります。この訓練データの作成は、これまで人間が手動で行う必要があり、膨大な労力を必要としました。Facebookの新しい技術は訓練データの作成を必要とせず、たとえば「猫」というラベル付けされた訓練データがなくとも写真に写っているのが猫かどうかを判断できるとのこと。この技術によって、既に失われた過去の言語で書かれた文書を翻訳したり、スワヒリ語のようなあまり使用されない言語をリアルタイム翻訳することが可能になるとみられています。

Facebookの新技術のコアは以下の3つを組み合わせたもの。いずれも、過去の研究で開発されたものです。

1:バイト対符号化
Facebookの技術では「hello」という単語がまるまるシステムに与えられるのではなく、helloを「he」「l」「l」「o」という4つのパートに分けてシステムに与えます。これにより「he(彼)」という言葉を知らなくとも「he」の翻訳が可能になります。単語をより短い単位に分割することで、実質的に未知語をなくすことができるというわけです。

2:言語モデル
言語モデルは分の品詞や統語構造、単語と単語、文書と文書の関係について定式化したもの。これによってより自然な文章を判断することができ、「how is you」を「how are you」に修正することができます。

3:逆翻訳
ユーザーが英語からスペイン語の翻訳を行おうとするとき、システムはスペイン語から英語の逆翻訳を行います。これによってデータの量が増加し、ニューラル翻訳モデルを最適化することが可能になるとのこと。

Facebookのシステムは、上記3つの要素をNMT(neural network-based system)とPBSMT(phrase-based system)のアプローチで組み合わせたもの。NMTとPBSMTはいずれも単体で翻訳の質を上げることができるもので、両方を同時使うことで、非常にいい結果を生み出すことができたとのこと。

なお、Facebookは無料でコードを公開しており、誰でもシステムを構築することが可能となっています。(GIGAZINE)

GitHub – facebookresearch/UnsupervisedMT: Phrase-Based & Neural Unsupervised Machine Translation

 

日本語は文法が異なるのでアルファベット圏と違い自動翻訳はまだまだ使い勝手は悪いのですが、単語なら簡単に調べらるのでGOOGLE翻訳を使っている人は多いかと思います。音声翻訳も徐々に進化して来ていますが、将来的には通訳の仕事も大分減るのではないかと予想されています。

アジアのブロックチェーン・仮想通貨業界における求人数、約1年で50%増

スタートアップに適した国 エストニア

関連記事

  1. learnfromyourmistake

    失敗から学ぶ「起業」―成功を勝ち取るために押さえておくべき“教訓…

    近年、起業のハードルは下がったという声もある。一因にあるのはやはりインターネットの普及であり、ユーザ…

  2. 急成長中のIoT市場、2020年には145兆円突破?7割の世帯が…

    米決済情報サイト「Payment.com」などの最新レポートから、昨年のIoT(モノのインターネット…

  3. 食料の無駄 南米では50%以上に

    国連食糧農業機関(FAO)ブラジル事務所のデータによると、南米では食料の28%が農業生産の過程で失わ…

  4. エストニア独自のエコシステムから生まれたユニーク&革新的スタート…

    「世界最先端のデジタル国家」と呼ばれるエストニア。本連載第3回、第4回ではデータ連携、セキュリティ、…

  5. タイでビジネスをするなら欠かせない「世界初の国家会員プログラム」…

    微笑みの国タイといえば、ムエタイ、象、タイカレーやトムヤンクンなどを連想する人が多い一方で、昨今は経…

  6. cryptocurrency

    タイ財務省、仮想通貨課税に関する枠組み最終版を発表

    タイ財務省は今週、仮想通貨課税に関する枠組みを発表した。ニッケイ・アジア・レビューが30日に伝えた。…

  7. spacex

    スペースXの最新ロケット、ここがスゴイ

    打ち上げの瞬間は21:30頃。  必見のブースター帰還場面は…

  8. ベトナム発日本行き、留学生12倍超に-経済成長が後押し

    東南アジアでの影響力と機会をめぐり中国と争う中、日本は教育分野で攻勢をかけている。日本は東南…

暗号通貨相場


最近の記事

  1. venture_smallstart
  2. AWS Managed Blockchain_smallstart
  3. legalforce_smallstart

暗号通貨

bitFlyer ビットコインを始めるなら安心・安全な取引所で

為替情報

為替コンバータ

ブログ更新をメールで受け取る

メールアドレスを記入して購読すれば、更新をメールで受信できます。アドレスは管理人でも知られません。

PAGE TOP