ンコーダ、文単位の品質スコアの推定器、語単位の品質スコアの推定器で構成される。エンコーダは、入力された原文とMT訳の合計n語の各語( )を、文内の文脈を考慮してd次元ベクトル( )に変換する。原文とMT訳は異なる言語で記述されているため、両者をエンコードするには多言語言語モデルが不可欠である。文単位の品質スコアの推定器は、原文とMT訳の各語に対する合計n個のベクトルをプーリングした後にスコア に変換する。一方、語単位の品質スコアの推定器は、原文とMT訳の各語に対するベクトルを品質スコア に変換する。文単位と語単位のいずれについても、最後の変換処理の実装は品質スコアの定義によって異なる。例えば文全体または個々の語に対するスコアを0〜1の実数値で得る場合は、d次元のベクトルを1つの実数値に変換する回帰モデルとして実装する。文全体または個々の語を{Good, Fair, Bad, Critical}のような複数のクラスに分類する場合は、d次元のベクトルをクラスの個数の実数値に変換する分類モデルとして実装する。2.2学習に使われる言語資源QEモデルの学習には2種類のQEデータが用いられる。1つ目は、人手で作成されたQEデータである。このデータは、MT訳の文全体の品質や各語の品質を人間が評価したり、MT訳を人手で修正することを通じて修正が必要な部分とそうでない部分を同定したりすることで作成できる。ニューラルネットワークに基づくモデルの性能を向上させるには、大規模なデータを学習に用いることが望ましいが、QEデータの作成は金銭的・時間的コストが高いため、これまでの研究では特定の翻訳方向及び特定の文書分野のテキストに対して7,000〜40,000文ほどしか作られていない[6][7][12]。そこで2つ目のデータとして、人手で作成されたデータほど正確ではないものの大規模なQEデータを自動的に生成して、学習に活用することが一般的である。そのような擬似QEデータは、例えば対訳データを用いて生成できる[11][15][16]。<原文, MT訳>の対を精度良くエンコードするには、大規模な多言語テキストデータを用いて長時間かけて学習した多言語言語モデルを用いることが望ましい。近年では、そのような学習を経て得られた様々な種類の多言語言語モデルが一般公開されている。それらをそのまま活用することにより、コストを抑えつつ高い性能を実現することができる。実際に自然言語処理に関する多くの研究においてそのようなことが行われている。2.3QEモデルの学習手順QEモデルの学習手順を図3に示す。以下では4つのステップの各々について述べる。ステップ1 エンコーダの初期化: 事前学習済多言語言語モデルのパラメタをコピーしてQEモデルのエンコーダのパラメタを初期化する。ステップ2 疑似QEデータの自動生成: <原文, MT訳, 品質スコア>の組の形式のデータを機械的かつ大規模に生成する。まず、事前に用意した対訳データの一部を用いてMTモデルを学習する。既存のMTモデルが利用できる場合は、それを用いても良い。次に、対訳データのうちMTモデルの学習に使用していない部分の原文を翻訳モデルで翻訳してMT訳を得る。最後に、MT訳を対訳データにおける目標言語の訳文(MT訳とは独立に作成された人間訳)と比較して品質スコアを得る。文単位のスコアの尺度としては、例えば、MTの自動評価に用いられるBLEUスコア[3]、chrFスコア[19]、TERスコア[20]などを用いることができる。また、人間訳をMT訳の人手修正訳とみなしてMT訳と比較し、例えばMT訳中の修正された語をBad,修正されていない語をGoodというように分類したものを語単位の品質スコアとすることもできる[11][15][16]。ステップ3 QE向け事前学習: ステップ2で生成した疑似QEデータを用いて、文単位及び語単位の品質スコアの推定器のパラメタを学習するとともに、多言語言語モデルのパラメタを更新する。具体的にはまず、学習用のQEデータ中の個々の<原文, MT訳, 品質スコア>というデータのうち、<原文, MT訳>の対をQEモデルに入力し、得られた予測スコアと正解の品質スコアの誤差を計算する。誤差としては、回帰モデルの場合は二乗平均誤差、分類モデルの場合は交差エントロピーが用いられる。そして、誤差逆伝播法によって、この誤差が小さくなるようにパラメタを更新する。図2のように単一のモデルで文単位のQEと語単位のQEの両方を行う場合は、マルチタスク学習が用いられる。例えば、各スコアの誤差に基づいてパラメタを更新する操作を交互に行うことや、両方の誤差を統合してパラメタを更新することが考えられる。ステップ4 パラメタの洗練: 人手で作成されたQEデータを用いて、ステップ3と同様にしてQEモデルのパラメタを洗練する。2.4課題既存のQEモデルにおいて、文単位のスコアの推定器と語単位のスコアの推定器は、<原文, MT訳>の各語のベクトルを共有するものの、互いにはインタラ752-3-4 機械翻訳結果の品質推定
元のページ ../index.html#81