4.2使用した言語資源 3で述べたモデルを学習するために、2種類の事前学習済モデル及び対訳データを使用した。1種類目の事前学習済モデルは多言語言語モデルである。HuggingFace Transformersライブラリ[21]として公開されている XLM-RoBERTa [22]のモデルxlm-roberta-largeを使用した。2種類目の事前学習済モデルは、対訳データを翻訳して疑似QEデータを生成するために使用した学習済のMTモデルである。具体的には、エストニア語英語及びルーマニア語英語の2つの翻訳方向については、国際ワークショップWMT 2020のQEシェアードタスク[6]において主催者から提供されたニューラルMTモデルを使用した。ロシア語ドイツ語については、mBART50 [23][24]を使用した。ドイツ語中国語については、mBART50による翻訳の品質が低かったため、mBART50のパラメタをOPUS [25]におけるNewsCommentary及びMultiUNの2種類の対訳データを用いて洗練してから使用した。疑似QEデータを生成するための対訳データとして、WMT2020のニュース翻訳タスク[26]において主催者から提供された対訳データ及びOPUS [25]の対訳データを使用した。ただし、ドイツ語と中国語の言語対に関しては、次の手順で新たに疑似対訳データを生成して用いた。まず、CommonCrawl及びNewsCrawlの2018〜2020年の中国語テキストデータを収集した。次に、ニューラルMT の学習フレームワークMarian [27]及びWMT 2020のQEシェアードタスク[6]において主催者から提供された中国語・英語の対訳データを用いて、中国語英語のニューラルMTモデルを学習し、それを用いて上記の中国語テキストデータを英語に翻訳した。続けて、WMT 2020の QEシェアードタスク[6]において主催者から提供された英語ドイツ語のニューラルMTモデルを用いて上で得た英語のMT訳をドイツ語に翻訳し、元の中国語の各文と対応付けたものを対訳データとした。4.3QEモデルの学習とアンサンブル 2.3で述べた手順で複数のQEモデルを学習した。ステップ1 xlm-roberta-largeでエンコーダを初期化した。ステップ2 疑似QEデータの自動生成: 4.2で述べた対訳データの起点言語の文を、同じく4.2で述べたMTモデルに入力してMT訳を生成し、対訳データの目標言語の人間訳と比較して文単位・語単位の品質スコアを計算し、QEデータとした。文単位の品質スコアの尺度としては、BLEUスコア[3]、 chrFスコア[19]、 TERスコア[20]を用いた。また、語単位の品質スコアとしては、原文とMT訳、原文と人間訳、MT訳と人間訳の各々の語の対応付けに基づいて原文及びMT訳の各語を{Bad, Good}のいずれかに分類して用いた。語の対応付けにはTER及びfast_align [28]を用いた。疑似QEデータの記述統計を表2に示す。表1の学習用データと比べて、文数で約3,000〜6,000倍、のべ語数で約3,000〜5,000倍の規模である。ステップ3 疑似QEデータ(表2)を用いて合計12個表1 公式のQEデータの記述統計: “k”は1,000を表す。中国語は文字を単位として算出。翻訳方向用途文数のべ語数語の異なり数エストニア語英語 (ETEN)学習7k98.1k / 136.6k28.9k / 14.6k検証1k14.4k / 20.1k6.9k / 4.7k評価1k14.0k / 19.6k6.9k / 4.7kルーマニア語英語 (ROEN)学習7k120.2k / 123.3k23.5k / 15.2k検証1k17.3k / 17.7k6.4k / 4.8k評価1k17.4k / 17.8k6.3k / 4.8kロシア語ドイツ語 (RUDE)評価1k25.4k / 28.8k10.2k / 7.5kドイツ語中国語 (DEZH)評価1k24.9k / 52.8k8.4k / 2.2k表2 疑似QEデータの記述統計: “k”は1000、“M”は100万を表す。中国語は文字を単位として算出。翻訳方向文数のべ語数語の異なり数エストニア語英語 (ETEN)24.9M322.5M / 411.0M4.8M / 2.8Mルーマニア語英語 (ROEN)42.1M600.5M / 601.2M4.0M / 3.6Mロシア語ドイツ語 (RUDE)19.5M256.9M / 262.7M4.4M / 4.4Mドイツ語中国語 (DEZH)19.8M422.8M / 708.1M4.5M / 3.3k78 情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術
元のページ ../index.html#84