を定める。そしてそれらをd次元ベクトルに変換する。 (1)尺度からの語への注意の定量化 (metric attention): 各尺度が、そのスコアの根拠として<原文, MT訳>中のどの語をどの程度注意しているかを定量化する。ここで尺度ごとに注意機構を持たせ、各々においてu個の注意ヘッドにd次元のうち異なるd/u次元ずつを参照させる。 •尺度埋め込みを変換して、個々の尺度( )、個々の注意ヘッド( )のクエリを生成する。 (2) •注意対象である個々の語のベクトルを変換して注意機構のキー、バリュー対を得る。 (3) (4) (5)ここでReLU(・)は活性化関数の一種である。 •各尺度の各注意ヘッドから各語への注意の度合いを定量化する。 (6)ここでσ(・)はシグモイド関数である。文単位の品質スコアの予測: 尺度ごとの予測スコアを次の手順で計算する。 •注意の度合いに応じて語の埋め込みのバリューを混合する。 (7) •u個の注意ヘッドの情報を統合し、全尺度に共通の変換及び各尺度に固有の変換を施す。 (8) 2つの変換行列に分割することによって、可能な限り多くのパラメタを個々の尺度に依存しないようにしている。また、文単位のスコアの予測に注意機構を用いることにより、プーリングとは異なり、すべての語に対する情報を集約して使用できる。語単位の品質スコアの予測: 各語に対する予測スコアを次の手順で計算する。 •各尺度についてu個の注意ヘッドの情報を統合して注意量を計算する。 (9) •語のベクトルとg個の尺度の各々の注意量を統合した上で、スコアに変換する。 (10)このQEモデルも、2.3で述べた手順で学習できる。学習ステップ3及び4で新たに学習するパラメタは、式(1)〜(5)及び式(8)〜(10)におけるすべての変換行列Wである。これらのうち、各尺度に固有のパラメタは式(1)の と式(8)の のみである。したがって、疑似QEデータを用いる学習ステップ3では人間の主観評価のスコアは利用できないが、人間の主観評価のスコアが使える学習ステップ4では、この新たな尺度に専用のパラメタのみを追加学習すれば良い。また、語単位のスコアの予測に固有のパラメタは式(9)の と式(10)の のみである。語単位のQEデータは作成コストが高いため、人手で作成されたデータを用いてQEモデルを学習できるとは限らないが、これらのパラメタは学習ステップ3において疑似QEデータからも学習できる。Explainable QEシェアードタスクにおける評価実験 2021年、国際ワークショップEval4NLP (Evalua-tion & Comparison of NLP Systems)においてEx-plainable QEというシェアードタスクが開催された[7]。我々は、3で述べたシステムを用いてこのシェアードタスクに参加し、良好な成績を収めた。4.1シェアードタスクの仕様Explainable QEは、所与の<原文, MT訳>の対に対して、文単位及び語単位の品質スコアを予測するタスクである。今回のシェアードタスクではモデルの学習のためのデータとして<原文, MT訳, 文単位の品質スコア>という形式のQEデータのみが配布された。すなわち、文単位のQEモデルを教師あり学習によって得ながらも、その推定の根拠として語単位の品質スコアを精度良く推定することが求められた。タスクの主催者から配布されたQEデータの記述統計を表1に示す。エストニア語英語とルーマニア語英語の2つの翻訳方向については、評価用のQEデータに加えて、モデルの学習用及び検証用のQEデータが配布された。一方、ロシア語ドイツ語とドイツ語中国語の2つの翻訳方向については、評価用のQEデータのみが配布された。これらの翻訳方向についてはゼロショット学習が想定されている。4772-3-4 機械翻訳結果の品質推定
元のページ ../index.html#83