HTML5 Webook
99/372

913●ユニバーサルコミュニケーション分野言語データや汎用言語モデルを活用した疑似対訳データを生成して、(c)のような適切な翻訳を得ることができる手法を提案し、難関国際会議*4に採択され発表した。4.一文を越えた情報を考慮した翻訳技術を実装し実験のため公開する一文を越えた情報を考慮した翻訳技術(今年度は、入力文の文脈を参照して日本語の主語を補って翻訳する手法)の試行を一般向けサイトTexTra*5(図2)で公開している。5.人間の同時通訳の能力評価について定式化を検討する自動同時通訳の高度化に必要となる、同時通訳の能力評価に向けた基礎データの収集を行った。また、「自動翻訳の出力の品質推定の説明性」に関するコンテスト*6に参加し、種々の尺度を活用する新たなニューラルネットワークを考案し「Best Overall Approach」を受賞した。6.多分野化のための翻訳バンクのデータの加工・洗浄方法の研究開発を行う総務省・NICTの連携による対訳データの大規模蓄積活動である翻訳バンクの多分野化において、異なるOSSコミュニティ(Linux FoundationやLibre Office)による翻訳、茶道をはじめとする文化にかかわる翻訳、官民連携のモデルケースとなる金融業界翻訳等、波及効果が大きい新展開ができた。上記の金融業界から翻訳バンクに寄付された日英の対訳文書対(金融庁内及び同庁からの呼びかけに応じた金融団体・会社からの多様なデータ)を対象として、文対訳のデータを自動抽出し、同データを半自動洗浄する方法を改良した。洗浄方法で有効だったのは、対訳の訳文の逆翻訳と原文の類似度によるフィルタリング等である。今回は約600冊の原本から、約20万文取得でき、日英双方向で汎用モデルから大幅に精度改善し「高品質で流暢とされる」50ポイント台のBLEUを達成した。金融業界専用の高精度エンジンを構築できた。同じ原文に対する従来の汎用翻訳システムによる訳文と上記の金融分野向けの高精度 AI 翻訳システムによる訳文の品質の比較(図3)を行ったところ、最高品質である金融専業翻訳者レベルに達した割合は、前者で約 2 割だったが、後者では約 5 割と大きく増加し、NG レベルの割合は半減するなど、圧倒的な高精度化を実現した。令和4年3月から技術移転を開始し3者にライセンスした。7.実用レベルの翻訳品質を実現する基盤として話し言葉の対訳コーパスを拡張する旅行、医療、防災等を含む日常会話を対象とした話し言葉の自動翻訳の需要は強い。前中長期計画期間において、実用レベルの翻訳品質を達成する基盤として世界最大規模*7の話し言葉の対訳データの構築が有効であることをグローバルコミュニケーション計画*9で決められた異なる10 言語*9を対象として検証できたことを踏まえ、特に、訪日外国人・定住外国人と日本人のコミュニケーションを支援するため、令和2年度末までに2言語(ブラポル語、フィリピン語)追加したことに加え、令和3年度末までに3言語(ネパール語、クメール語、モンゴル語)追加した。言い換えると政策的に重点化すべき15言語について高精度化基盤を確立した。これらに基づく音声翻訳システムを試用アプリであるVoiceTraとして公開し、成果物を技術移転している。*1https://www.soumu.go.jp/menu_news/s-news/01tsushin03_02000298.html*2文分割モデルをファインチューニングしてチャンク分割モデルを試作。*3https://voicetra.nict.go.jp/*4Benjamin Marie and Atsushi Fujita. Synthesizing Parallel Data of User-Generated Texts with Zero-Shot Neural Machine Trans-lation. In Proceedings of The Joint Conference of the 59th An-nual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Lan-guage Processing (ACL-IJCNLP 2021), August 1-6, 2021.*5https://mt-auto-minhon-mlt.ucri.jgn-x.jp/*6最難関国際会議の一つであるThe Conference on Empirical Methods in Natural Language Processing(EMNLP)の併設ワークショップThe 2nd Workshop on Evaluation & Comparison of NLP Systems が実施した。*7研究開発の競争状態を鑑み数量は非公開としている(令和3年5~9月実施)。*8https://www.soumu.go.jp/main_content/000285578.pdf*9日本語、英語、中国語、韓国語、タイ語、インドネシア語、ベトナム語、ミャンマー語、スペイン語、フランス語図2 NICTの多言語テキスト翻訳技術を公開しているお試しサイト「みんなの自動翻訳@TexTra」図3 金融分野の対訳投入前後の比較3.4.1 先進的音声翻訳研究開発推進センター

元のページ  ../index.html#99

このブックを見る