今回、LLMで利用されている機能の一部をNMTに採用することにより、自動評価尺度BLEUスコア※が大幅に向上しました。下の2つの図では、それぞれ、多言語から日本語への汎用エンジンのBLEUスコアを比較しています。
図からわかるように、全言語方向で、BLEUスコアが向上するという明確な性能改善が達成されています。また、BLEUスコアの増分が、2ポイント程度あると、体感的にも自動翻訳性能が向上し、また、5ポイント程度あると、かなり明確な翻訳精度の差が体感できることが、経験的に分かっています。
Transformer では、活性化関数・位置関数・アテンション・層数など、性能を左右するポイントが数多くありますが、今回は、LLMでの利用実績を考慮し、モデルサイズ・翻訳速度の観点から、実用的に高精度となる機能を取り入れました。その結果の傾向としてのモデルの変更点(言語方向ごとに詳細は異なる)は次のものです。
- ・モデルサイズ:
- 1.25倍程度に増加(10億パラメタ程度)
- ・翻訳精度:
- BLEUスコアで平均2.2ポイント程度が向上
- ・翻訳速度(CPU):
- 0.80倍程度に減少
- ・翻訳速度(GPU):
- ほぼ変わらず
- ・メモリ使用量(CPU):
- 1.25倍程度に増加
- ・メモリ使用量(GPU):
- 1.20倍程度に増加