menu

Facebookが機械翻訳の質を劇的に向上させるAI技術を開発

Google翻訳は2016年に「ニューラル機械翻訳(Neural Machine Translation/NMT)」というシステムを導入することで翻訳の質が劇的に向上しました。しかし、既存のシステムは人間が作成した「訓練データ」を必要とするという弱点があったとして、新たにFacebookは訓練データを必要としないAI技術を開発。これによって、これまでは翻訳の質がよくなかったマイナーな言語の翻訳が、劇的に向上するとのことです。

Phrase-Based & Neural Unsupervised Machine Translation
(PDFファイル)https://arxiv.org/pdf/1804.07755.pdf

Unsupervised machine translation: A novel approach to provide fast, accurate translations for more languages – Facebook Code
https://code.fb.com/ai-research/unsupervised-machine-translation-a-novel-approach-to-provide-fast-accurate-translations-for-more-languages/

Facebook’s AI Just Set A New Record In Translation And Why It Matters
https://www.forbes.com/sites/williamfalcon/2018/09/01/facebook-ai-just-set-a-new-record-in-translation-and-why-it-matters/#4616ca493124


2015年にカナダの研究機関であるMontreal Institute for Learning Algorithms(MILA)によって(PDFファイル)機械翻訳を可能にするAI技術が開発されました。Google翻訳にも利用されるMILAのニューラル機械翻訳(Neural Machine Translation/NMT)は、文章をフレーズごとに訳すのではなく一度に全ての文章を翻訳することで、文脈によって変化する単語の意味も考慮することができます。ニューラル機械翻訳により、Google翻訳の質は飛躍的に向上しました。

ただし、ニューラル機械翻訳は翻訳を行う2カ国語の文章のペアを必要としていました。英語とスペイン語間の翻訳を行うには「I like to eat(英語)」と「me gusta comer(スペイン語)」の2つが必要であり、このようなペアが十分でない英語・ウルドゥー語間の翻訳などはうまく機能しないとのこと。翻訳精度を上げるため、研究者はこのようなペアを必要としないシステムの開発に力を入れていました。

by Simson Petrol

そして、2018年8月、Facebook AI Research(FAIR)の研究者たちは、ウルドゥー語・英語間のようにペアが少ない言語における翻訳を劇的に向上させたと発表しました。

機械翻訳結果の自動評価基準の1つであるBLEU(Bilingual Evaluation Understudy)では、1BLEUポイントが「めざましい成果」と評価されるところ、Facebookの新しい技術は10BLEUポイント以上の向上がみられるとのこと。

AIに機械学習を行わせる場合、あらかじめ用意しておいた訓練データ(Labeled data)を学習させる必要があります。この訓練データの作成は、これまで人間が手動で行う必要があり、膨大な労力を必要としました。Facebookの新しい技術は訓練データの作成を必要とせず、たとえば「猫」というラベル付けされた訓練データがなくとも写真に写っているのが猫かどうかを判断できるとのこと。この技術によって、既に失われた過去の言語で書かれた文書を翻訳したり、スワヒリ語のようなあまり使用されない言語をリアルタイム翻訳することが可能になるとみられています。

Facebookの新技術のコアは以下の3つを組み合わせたもの。いずれも、過去の研究で開発されたものです。

1:バイト対符号化
Facebookの技術では「hello」という単語がまるまるシステムに与えられるのではなく、helloを「he」「l」「l」「o」という4つのパートに分けてシステムに与えます。これにより「he(彼)」という言葉を知らなくとも「he」の翻訳が可能になります。単語をより短い単位に分割することで、実質的に未知語をなくすことができるというわけです。

2:言語モデル
言語モデルは分の品詞や統語構造、単語と単語、文書と文書の関係について定式化したもの。これによってより自然な文章を判断することができ、「how is you」を「how are you」に修正することができます。

3:逆翻訳
ユーザーが英語からスペイン語の翻訳を行おうとするとき、システムはスペイン語から英語の逆翻訳を行います。これによってデータの量が増加し、ニューラル翻訳モデルを最適化することが可能になるとのこと。

Facebookのシステムは、上記3つの要素をNMT(neural network-based system)とPBSMT(phrase-based system)のアプローチで組み合わせたもの。NMTとPBSMTはいずれも単体で翻訳の質を上げることができるもので、両方を同時使うことで、非常にいい結果を生み出すことができたとのこと。

なお、Facebookは無料でコードを公開しており、誰でもシステムを構築することが可能となっています。(GIGAZINE)

GitHub – facebookresearch/UnsupervisedMT: Phrase-Based & Neural Unsupervised Machine Translation

 

日本語は文法が異なるのでアルファベット圏と違い自動翻訳はまだまだ使い勝手は悪いのですが、単語なら簡単に調べらるのでGOOGLE翻訳を使っている人は多いかと思います。音声翻訳も徐々に進化して来ていますが、将来的には通訳の仕事も大分減るのではないかと予想されています。

アジアのブロックチェーン・仮想通貨業界における求人数、約1年で50%増

スタートアップに適した国 エストニア

関連記事

  1. シリコンバレー投資家が語る「今からの起業」で成功する条件

    「”複雑な連立方程式”を解くような経営ができる人物こそ、現代の理想の起業家だ」そう話すのは、スクラム…

  2. 山形・米沢 目指せIT集積地 AI企業が進出へ

    山形県米沢市を「日本のシリコンバレー」にしようという動きが加速してきた。ノートパソコンなど電機のハー…

  3. IOT-AI

    目指すは「AI/IoTの街」―― 柏の葉IoTビジネス共創ラボが…

    日本におけるスマートシティの先駆けである「柏の葉スマートシティ」(千葉県柏市)で2018年6…

  4. IoT市場、今後6年で2兆4000億円へ ソリューション事業分野…

    ミック経済研究所によれば、IoTソリューション市場は2017年度より成長期に入る。同研究所の予測では…

  5. 経済の体温”世界の物価上がらぬ「謎」 背景に新型経済の台頭

    “経済の体温”と呼ばれる物価が世界的に上がらない。国際決済銀行(BIS)の調べでは、6月時点で物価上…

  6. ベトナム・ダナン市−日系企業、進出ラッシュ

    ベトナム第3の都市、ダナン市への日系企業の進出が加速している。2011年に約50社だったダナン日本商…

  7. 避難所生活を快適にする「段ボール」の舞台裏

    いかに苦難を乗り越えて事業を進めるか、を考えなければいけません。でももう一つ大事なのは、その事業に大…

  8. small start-voice

    封筒を開けないでも内容物が音声メッセージでわかる

    チューリッヒ生命は10月30日、目が不自由な顧客へのサービス向上の一環として、郵送物の一部に音声コー…

暗号通貨相場


最近の記事

  1. freec_smallstart
  2. southeast_smallstart
  3. https://smallstart.biz/wp-
  4. ai_smallstart
  5. cultureexperience_smallstart

暗号通貨

bitFlyer ビットコインを始めるなら安心・安全な取引所で

為替情報

為替コンバータ

ブログ更新をメールで受け取る

メールアドレスを記入して購読すれば、更新をメールで受信できます。アドレスは管理人でも知られません。

PAGE TOP