menu

Facebookが機械翻訳の質を劇的に向上させるAI技術を開発

Google翻訳は2016年に「ニューラル機械翻訳(Neural Machine Translation/NMT)」というシステムを導入することで翻訳の質が劇的に向上しました。しかし、既存のシステムは人間が作成した「訓練データ」を必要とするという弱点があったとして、新たにFacebookは訓練データを必要としないAI技術を開発。これによって、これまでは翻訳の質がよくなかったマイナーな言語の翻訳が、劇的に向上するとのことです。

Phrase-Based & Neural Unsupervised Machine Translation
(PDFファイル)https://arxiv.org/pdf/1804.07755.pdf

Unsupervised machine translation: A novel approach to provide fast, accurate translations for more languages – Facebook Code
https://code.fb.com/ai-research/unsupervised-machine-translation-a-novel-approach-to-provide-fast-accurate-translations-for-more-languages/

Facebook’s AI Just Set A New Record In Translation And Why It Matters
https://www.forbes.com/sites/williamfalcon/2018/09/01/facebook-ai-just-set-a-new-record-in-translation-and-why-it-matters/#4616ca493124


2015年にカナダの研究機関であるMontreal Institute for Learning Algorithms(MILA)によって(PDFファイル)機械翻訳を可能にするAI技術が開発されました。Google翻訳にも利用されるMILAのニューラル機械翻訳(Neural Machine Translation/NMT)は、文章をフレーズごとに訳すのではなく一度に全ての文章を翻訳することで、文脈によって変化する単語の意味も考慮することができます。ニューラル機械翻訳により、Google翻訳の質は飛躍的に向上しました。

ただし、ニューラル機械翻訳は翻訳を行う2カ国語の文章のペアを必要としていました。英語とスペイン語間の翻訳を行うには「I like to eat(英語)」と「me gusta comer(スペイン語)」の2つが必要であり、このようなペアが十分でない英語・ウルドゥー語間の翻訳などはうまく機能しないとのこと。翻訳精度を上げるため、研究者はこのようなペアを必要としないシステムの開発に力を入れていました。

by Simson Petrol

そして、2018年8月、Facebook AI Research(FAIR)の研究者たちは、ウルドゥー語・英語間のようにペアが少ない言語における翻訳を劇的に向上させたと発表しました。

機械翻訳結果の自動評価基準の1つであるBLEU(Bilingual Evaluation Understudy)では、1BLEUポイントが「めざましい成果」と評価されるところ、Facebookの新しい技術は10BLEUポイント以上の向上がみられるとのこと。

AIに機械学習を行わせる場合、あらかじめ用意しておいた訓練データ(Labeled data)を学習させる必要があります。この訓練データの作成は、これまで人間が手動で行う必要があり、膨大な労力を必要としました。Facebookの新しい技術は訓練データの作成を必要とせず、たとえば「猫」というラベル付けされた訓練データがなくとも写真に写っているのが猫かどうかを判断できるとのこと。この技術によって、既に失われた過去の言語で書かれた文書を翻訳したり、スワヒリ語のようなあまり使用されない言語をリアルタイム翻訳することが可能になるとみられています。

Facebookの新技術のコアは以下の3つを組み合わせたもの。いずれも、過去の研究で開発されたものです。

1:バイト対符号化
Facebookの技術では「hello」という単語がまるまるシステムに与えられるのではなく、helloを「he」「l」「l」「o」という4つのパートに分けてシステムに与えます。これにより「he(彼)」という言葉を知らなくとも「he」の翻訳が可能になります。単語をより短い単位に分割することで、実質的に未知語をなくすことができるというわけです。

2:言語モデル
言語モデルは分の品詞や統語構造、単語と単語、文書と文書の関係について定式化したもの。これによってより自然な文章を判断することができ、「how is you」を「how are you」に修正することができます。

3:逆翻訳
ユーザーが英語からスペイン語の翻訳を行おうとするとき、システムはスペイン語から英語の逆翻訳を行います。これによってデータの量が増加し、ニューラル翻訳モデルを最適化することが可能になるとのこと。

Facebookのシステムは、上記3つの要素をNMT(neural network-based system)とPBSMT(phrase-based system)のアプローチで組み合わせたもの。NMTとPBSMTはいずれも単体で翻訳の質を上げることができるもので、両方を同時使うことで、非常にいい結果を生み出すことができたとのこと。

なお、Facebookは無料でコードを公開しており、誰でもシステムを構築することが可能となっています。(GIGAZINE)

GitHub – facebookresearch/UnsupervisedMT: Phrase-Based & Neural Unsupervised Machine Translation

 

日本語は文法が異なるのでアルファベット圏と違い自動翻訳はまだまだ使い勝手は悪いのですが、単語なら簡単に調べらるのでGOOGLE翻訳を使っている人は多いかと思います。音声翻訳も徐々に進化して来ていますが、将来的には通訳の仕事も大分減るのではないかと予想されています。

アジアのブロックチェーン・仮想通貨業界における求人数、約1年で50%増

スタートアップに適した国 エストニア

関連記事

  1. かわいすぎる!ピコピコ動くネコ耳つきスーツケース「Fravel」…

    なでたり一緒に歩いたりすると、ピコピコ動くネコ耳のついたスーツケース「Fravel」が、クラウドファ…

  2. 全国鉱工業公設試験研究機関保有機器・研究者情報検索システム

    アメリカのシリコンバレーでは少数人数でのメーカースタートアップが盛況ですが、プロトタイプを動画で紹介…

  3. 日欧EPA ワイン、チーズ…値下げの恩恵 生産減で日本の農林水産…

    EUとのEPAが発効すれば、世界の国内総生産(GDP)の約28%、世界の貿易額の約37%を占める世界…

  4. エストニア発 IT国家の次世代型人材サービス

    バルト三国最北にあるエストニアは、通話/メッセージングサービス「Skype」が誕生したことでも知られ…

  5. アジア各国の賃金

    過去10年間の各国の賃金の変化を見ると、中国やアセアン諸国の上昇率が比較的高く、台湾・韓国・日本の上…

  6. 日本人がシリコンバレーで起業したFlyDataが400万ドルを調…

    2011年に米国シリコンバレーで創業したスタートアップ企業「FlyData」が、未来創生ファンド、ア…

  7. smallstart_iot

    儲かる農業はIoTで実現できるか?ヤンマーが検証

    “農作業”はパソコンやスマートフォンで生育状況をチェックするだけ。将来、農業はほとんど「全自動」で行…

  8. イスラエルのモビリティスタートアップ11社

    名古屋を主拠点に自動車関連を中心としたIT技術を提供するAZAPA株式会社が、イスラエルから11社の…

暗号通貨相場


最近の記事

暗号通貨

bitFlyer ビットコインを始めるなら安心・安全な取引所で

為替情報

為替コンバータ

ブログ更新をメールで受け取る

メールアドレスを記入して購読すれば、更新をメールで受信できます。アドレスは管理人でも知られません。

PAGE TOP