までは、開発と性能評価の基盤となるデータや評価尺度を共有して参加者の技術を競うシェアードタスク[6][7]が研究開発を活性化してきた。 MT訳の品質を測る単位としては、文単位、語単位の2種類がよく研究されている。QEの入出力の例を図1に示す。文単位と語単位のいずれも、入力は<原文, MT訳>の対である。文単位の品質としては、訳文全体の適否やMT訳を修正するコストの多寡が考えられる。例えば、音声翻訳アプリVoiceTra® [1] を用いる場合に、訳文の適否を0〜100点に定量化して示すことができれば、MT訳の品質が十分でない場合にそのまま使用することによるリスクを回避できるだろう。あるいは、近年多くの翻訳会社が採用している、 MT訳を下訳とみなし、それを人手で修正したものを翻訳成果物とする翻訳制作工程[8]について考えてみよう。例えば、原文中のどの部分が翻訳誤りを生じているか、MT訳中のどの部分に修正が必要であるか(語単位の品質)、文全体でどれくらい修正が必要であるか(文単位の品質)が推定できれば、翻訳制作工程の効率化に役立つ。実際に、Memsource [9]などの翻訳支援ツールにもQEの機能が実装されつつある。NICTでは、VoiceTra®及びみんなの自動翻訳@TexTra®の一般公開後、2015〜2019年度に実施した総務省委託研究「グローバルコミュニケーション計画の推進―多言語音声翻訳技術の研究開発及び社会実証―I. 多言語音声翻訳技術の研究開発」[10]においてQE技術の研究開発に着手し、これまで研究開発を進めてきた[11]–[13]。本稿では、QE技術について述べ、NICTで開発した最新の手法を紹介する。この手法は、2021年に開催された国際ワークショップEval4NLPのExplainable QEシェアードタスク[7]において良好な成績を収めた[14]。その結果についても報告する。ニューラルネットワークを用いた近年のQE技術2.1機械学習に基づくQE技術の定式化改めて、QEとは、所与の<原文, MT訳>の対に対する品質スコアを推定する技術である。QEのモデルは、他の自然言語処理タスク向けのモデルと同様に、正解事例(以下、QEデータ)からの機械学習によって実現される。QEデータ中の個々の事例は次のような形式のものである。 •文単位のQEデータ: <原文, MT訳, 文単位の品質スコア> •語単位のQEデータ: <原文, MT訳, 語単位の品質スコア>例えば、図1の2つ目の例に対する品質スコアは次のように表せる。 •文単位の品質スコア: 人手評価品質 = 0.30, BLEU = 0.605, … •語単位の品質スコア: “ジョン・ポール” = Bad, “の” = Good, “6日間” = Good, “の” = Good, “ツアー” = Bad, …語単位のQEデータの作成コストは文単位のQEデータの作成コストに比べてはるかに高い。そこで近年、文単位のQEデータのみを用いて語単位の品質スコアを推定するExplainable QEというタスク[7]が関心を集めている。機械学習の基盤としては近年では、ニューラルネットワークを用いることが主流である。さらに、QEの対象として入力される<原文, MT訳>の対をベクトルに変換する(エンコードする)際に多言語言語モデルを用いること、人手で作成されたQEデータに加えて自動生成した大規模な疑似QEデータを用いることも一般的である[11][15][16]。ニューラルネットワークを用いた自然言語処理向けのモデルでは、大語彙を頑健に扱うために、個々の語をサブワードと呼ばれる短い文字列に分割して扱う[17][18]が、本稿では簡単のため語とサブワードを区別せず「語」と記す。ニューラルネットワークに基づく近年のQEモデルは、図2に示すように、多言語言語モデルを用いたエ2原文MT訳修正訳Game 1 of the World Series will start Saturday evening.ワールドシリーズの第1戦は土曜日の夜に始まります。ワールドシリーズの第1戦は土曜日の夜に始まります。原文MT訳修正訳John Paul’s six‐day tour was hugely popular.ジョン・ポールの6日間のツアーは非常に人気がありました。法王ヨハネ・パウロの6日間の訪問は非常に人気がありました。文単位のスコア: 人手評価品質1.00, chrF 1.000, TER 0.000, BLEU 1.000 文単位のスコア: 人手評価品質0.30, chrF 0.500, TER 0.222, BLEU 0.605 図1機械翻訳の品質推定の例: MT訳の黄色は誤訳、緑色は適訳という語単位の品質を表す文単位のスコア語単位のスコア多言語言語モデル文単位スコアの推定語単位スコアの推定文脈を考慮した語の埋め込み原文とMT訳の語の系列図2 基本的なQEモデルの構成74 情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術
元のページ ../index.html#80