FacebookのAIベースの機械学習モデルは100の言語間で翻訳可能
Facebookは、M2M-100と呼ばれる多言語機械翻訳モデル(MMT)を発表しました。このモデルは、多くの他のシステムが中間言語として英語に依存するのとは異なり、英語に頼らずに100以上の言語間で直接翻訳が可能です。4,450の可能な言語組み合わせのうち、1,100の言語組み合わせを直接翻訳します。
新しいシステムは、ウェブクローラーの助けを借りて100の言語で収集された75億の文章ペアのデータセットでトレーニングされました。彼らはウェブから数十億の文章をスクレイピングし、fastTextと呼ばれる別のモデルが言語を識別しました。
Facebookはその後、同社の研究所によって以前に開発されたLASER 2.0と呼ばれるプログラムを使用しました。これは、手動でラベル付けされたデータを必要とせずに意味によって文を一致させる機械学習を使用します。LASER 2.0は、異なる言語の文章例をトレーニングし、それらがどのくらい頻繁に、かつ近い距離で使用されるかに基づいてその関係を判断します。
トレーニング時、モデルは希少な翻訳ペアよりも、互いによく翻訳される言語に重点を置きました。すべての言語は、モデルをより正確にトレーニングするために文化的および地理的な類似性に基づいて14のグループに分けられました。
新しく開発された人工知能は、機械翻訳の品質を評価するために使用される100点満点のBLEUスケールで既存のシステムを10点上回りました。また、実際に人間が行った評価では、新モデルの正確性は90%であることが示されました。
このシステムはまだFacebookで使用されていませんが、同社は近いうちに導入する予定です。ソーシャルメディアプラットフォーム上では、ユーザーがほぼ160の言語で書かれた投稿の下にある「翻訳」ボタンをクリックすることで、毎日約200億回の翻訳が行われています。
このモデルは現在、研究コミュニティにオープンソース化されており、こちらから見つけることができます。