今回、大規模言語モデル(LLM)のアーキテクチャを採用し、複数言語を1モデルで翻訳可能な翻訳特化型汎用・特許ユニバーサルモデル(汎用は日本語・英語⇔多言語、特許は日本語⇔多言語)を研究開発しました。
下の2つの図では、それぞれ、汎用・特許について、多言語から日本語への翻訳の自動評価尺度BLEUスコア(※)を比較しています。汎用・特許UMと汎用・特許UMTがユニバーサルモデルで、汎用・特許NTは、従来からNICTで研究開発しているNMTです。
従来のNMTと、ユニバーサルモデルの大きな違いとしてパラメタ数があります。それぞれのパラメタ数を比較すると、汎用・特許UMTは1モデル当たり18億パラメタ程度、汎用・特許UMは1モデル当たり120億パラメタ程度です。一方、汎用・特許NTは1言語方向あたり8億パラメタ程度で軽量ですが、複数言語方向を扱うためには、言語方向数の翻訳モデル(エンジン)が必要になります。
一般に、パラメタ数が多いほど高精度の翻訳が可能となりますが、翻訳速度が遅くなるというトレードオフの関係があります。そのため、従来のNMTに加えて、翻訳特化型のユニバーサルモデルを勘案することで、必要な翻訳対象の言語数と利用可能な計算機環境に応じて、最適な翻訳エンジンを選択することが可能となります。