66■概要自動翻訳の多言語化・多分野化のためのアルゴリズムを研究開発しつつ、並行して基盤となる多言語・多分野の対訳データを大規模に収集し、これらの二つに基づいて高精度の自動翻訳システムの社会実装を進めている。具体的には、特に、訪日外国人・定住外国人と日本人のコミュニケーションを支援するため、グローバルコミュニケーション計画(以下、GC計画という。)*1で決められた10言語(日本語、英語、中国語、韓国語、タイ語、インドネシア語、ベトナム語、ミャンマー語、スペイン語、フランス語)及び4分野(旅行、医療、防災、生活)に注力し、観光・日常生活において実際に利活用可能な音声翻訳システムの実装・改良を続けている。一方、2020年以降の世界を見据えた研究開発として、同時通訳システムの基礎技術(翻訳処理の漸次化等)の研究開発をと、自動翻訳システムの汎用化の進展を妨げうる対訳データ依存性を最小化するため、対訳でない単言語データを利活用する技術の研究開発を進めている。■令和2年度の成果1.自動翻訳技術(自主研究)開催日程変更後も東京オリンピック・パラリンピック競技大会から、照準をずらすことなく改良・拡張の研究開発を行った。自動翻訳アルゴリズムの高度化と2種類の対訳コーパスの増強で多言語・多分野で自動翻訳システムを高精度化した。自動翻訳のアルゴリズムをSMT(統計翻訳)、RNN(リカレントニューラルネット)、TM(トランスフォーマ)に進化させ、更にFine-tuningと呼ばれる適応技術、Example-basedと呼ばれる細粒度の適応技術と組み合わせることによって、分野ごとに段階的に高精度化する手法を明らかにした。実際に、翻訳バンク*2に集積してきた多分野の書き言葉のコーパスによって汎用性を確保し、話し言葉の対訳コーパスで適応することによって、GC計画の10言語について、旅行、医療、防災、生活の分野に対応した実用レベル、すなわち 80%程度の翻訳正解率(図1)を実現し、話し言葉の公開アプリVoiceTra*3に実装し技術移転した。さらに、書き言葉のTexTra*4のエンジンの換装や言語・分野の追加として結実させ、技術移転も遅滞なく進めた。以下にコーパスの詳細を述べる。話し言葉を対象にした、旅行、医療、防災、生活の4分野で、全体で15言語の世界最大規模*5の対訳コーパスを着実に構築している、まず、GC計画の10言語は完成させ、日本に定住している外国人の人口を考慮し、ブラジルポルトガル語、フィリピン語、ネパール語への拡張を令和2年度で完成した。令和3年度での完成を目指して、クメール語、モンゴル語は構築を開始した。大規模な書き言葉の対訳コーパスを収集する翻訳バンク*6の多分野化も着実に推進できており、今年度特筆に値するのは、LINUX FOUNDATIONと連携しオープンソースソフトウエア分野に進出したことである。2020年以降の世界を見据えた研究開発として、以下を実施した。対訳依存度最小化技術を改良し、特にUser Generated Text(SNS等で使われる非規範的なTEXT)に適用可能な自動翻訳アルゴリズムを創出した(難関国際誌TACLで採択)。この技術で、自動翻訳の適用範囲を大きく広げることが可能となる。また、文脈処理やマルチモーダルの翻訳への利活用の研究を進め、難関国際会議(ACL、EMNLP、NAACL、EACL、COLING、IJCNLP、IJCAI、AAAI、ICLR等としている)に多数採択された。図1 対訳コーパスの拡張とアルゴリズムの改良で高精度翻訳を実現(日本語から多言語の例)図2 同時通訳の基本方式3.6.2先進的翻訳技術研究室室長(兼務) 隅田 英一郎ほか19名自動翻訳技術の研究・開発と多言語・多分野での社会実装
元のページ ../index.html#74