BLEU; 式(9))、QEモデルの予測値(multi; 式(10))及び正解(gold)を表示している。正解については0または1の2値であり、それ以外は0〜1の実数値である。QEモデルの学習に使用した4つの尺度の注意の分布が必ずしも類似していないことは、尺度ごとに異なる特徴を捉えていることを示唆する。またこれらの尺度は、正解とは大きく異なる。しかしながら、我々のQEモデルはそれらを統合することにより、正解に比較的近い品質スコア(multi)を予測できている。おわりにNICTでは現在、MT技術の研究開発と並行して、MTシステムを実際に利用する際のサポート技術としてのQE技術の研究開発に取り組んでいる。本稿では、QE技術の概要及び近年の一般的なアプローチについて述べ、我々が開発した最新の手法を紹介した。国際ワークショップEval4NLPのExplainable QEシェアードタスクにおける成果をふまえ、今後はNICTにおけ5図5 各尺度から各語への注意量表4 評価用データに対するQEの性能評価結果: 太字は最も良い数値翻訳方向モデル原文の語単位MT訳の語単位文単位AUCAPAUCAPρETENランダムベースライン0.4880.3380.4960.358-0.029公式ベースライン10.5450.4400.6240.5360.772公式ベースライン20.5350.3700.6160.4410.494我々のベースライン0.9260.8480.8870.8080.793我々の提出システム0.9320.8520.8960.8240.845ROENランダムベースライン0.5010.2810.5150.3120.017公式ベースライン10.4780.3510.6350.5230.899公式ベースライン20.5350.2930.6670.5360.695我々のベースライン0.9370.8260.9420.8600.855我々の提出システム0.9470.8510.9460.8690.918RUDEランダムベースライン0.5060.3400.4940.309-0.017公式ベースライン10.5350.4270.4030.2630.498公式ベースライン20.5220.3560.5230.3290.252我々の提出システム0.9220.8040.9270.8290.679DEZHランダムベースライン0.4990.3000.4950.2930.000公式ベースライン10.4860.3170.4610.2710.335公式ベースライン20.4740.2880.5450.3330.176我々の提出システム0.8470.6450.8490.6790.28680 情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術
元のページ ../index.html#86