のQEモデルを学習した。まず、4つの翻訳方向の各々について、2種類のランダムシードと学習率の組み合わせを用いて合計8個のQEモデルを得た。これらの学習は、2エポックで停止した。次に、4つの翻訳方向のすべての疑似QEデータを用いて、4種類のランダムシードと学習率で合計4個の多言語QEモデルを得た。これらのモデルの学習は1エポックで停止した。ステップ4 学習用及び検証用のQEデータ(表1)が配布されたエストニア語英語及びルーマニア語英語の2つの翻訳方向についてのみ、ステップ3で得た各翻訳方向に固有の2つのQEモデル及び4つの多言語QEモデルを洗練した。文単位の品質スコアの尺度として、正規のQEデータにおいて人間が与えた0〜1の実数の評価値(Direct Assessment; DA)に加えて、ステップ3で用いたBLEUスコア、chrFスコア、TERスコアも用いた。一方、4.1で述べたタスク仕様に従い語単位の品質スコアの正解は参照しなかった。各QEモデルについてパラメタの洗練を20エポック行った。評価用データに対してQEを実施する際は、上述の手順で得た複数のモデルをアンサンブルして使用した。アンサンブルの構成要素を表3に示す。各モデルは、検証用データに対する各評価指標に基づいて選択した。 •語単位の評価指標(4つ): 原文とMT訳の各々に対する再現率-精度曲線の下側面積(AUC)及び平均精度(AP) •文単位の評価指標(2つ): Pearsonの積率相関係数(ρ)及び二乗平均平方根誤差(RMSE)ロシア語ドイツ語とドイツ語中国語の2つの翻訳方向については、ステップ2で生成した疑似QEデータから2,000文をサンプルして用い、ステップ3で得たQEモデルからモデルを選択した。エストニア語英語及びルーマニア語英語の2つの翻訳方向については、ステップ4で得たQEモデルからモデルを選択した。またこれらの2つの翻訳方向については、表3のアンサンブルに加えて、表3の先頭の2つのQEモデルのみをアンサンブルしたものをベースラインとして評価した。4.4評価結果シェアードタスクにおける公式の性能評価にならい評価用データに対する語単位のQEの性能をAUC及びAPで、文単位のQEの性能をPearsonの積率相関係数(ρ)で評価した結果を表4に示す。シェアードタスクの主催者が用意した3種類の公式ベースラインの評価結果も合わせて示す。いずれの尺度についても、値が大きいほど性能が良いことを表す(最大値は1)。語単位のQEについては、我々のシステムは4つの翻訳方向すべてにおいて、3種類のベースラインよりも優れた性能を達成した。また、文単位のQEにおいても、ドイツ語中国語以外のタスクにおいてベースラインよりも優れた性能を達成した。シェアードタスクの主催者による公式の性能評価結果[7]によると、我々が提出したシステム(表3のアンサンブル)は、4つの翻訳方向のうちエストニア語英語を除く3つにおいて、提出された他の7つのシステムよりも顕著に良い性能を達成した。エストニア語英語に関しては、我々が提出したシステムの成績は3位であった。4.5QE結果の説明性Explainable QEシェアードタスクが開催された背景に、文単位の品質スコアの予測結果に対する説明性という課題があった。そこで我々は、各尺度から各語への注意量(式(9))を、文単位の品質スコアの根拠として使用することを提案した。図5に、Eval4NLPのシェアードタスクの検証用QEデータから抽出したエストニア語英語の2例(上段)とルーマニア語英語の2例(下段)に対する各尺度の注意量を示す。横軸には<原文, MT訳>の各語を、縦軸には我々がQEモデルの訓練に使用した各尺度(DA,TER,chrF,表3 アンサンブルして使用したモデルの一覧語単位のQE(原文とMT訳の各々)文単位のQE翻訳方向専用(シード1)のAUC最大翻訳方向専用(シード1)のρ最大翻訳方向専用(シード2)のAUC最大翻訳方向専用(シード2)のρ最大多言語(シード1)のAUC最大多言語(シード1)のρ最大多言語(シード2)のAUC最大多言語(シード2)のρ最大多言語(シード3)のAUC最大多言語(シード3)のρ最大多言語(シード4)のAUC最大多言語(シード4)のρ最大翻訳方向専用(シード1)のAP最大翻訳方向専用(シード1)のRMSE最小翻訳方向専用(シード2)のAP最大翻訳方向専用(シード2)のRMSE最小792-3-4 機械翻訳結果の品質推定
元のページ ../index.html#85