HTML5 Webook
10/194

本稿では、上記の複数の技術、つまり、多言語音声翻訳技術、多言語テキスト翻訳技術及びAI同時通訳実現のための革新的多言語翻訳技術を「多言語コミュニケーション技術」と総称し、その概要を中心に紹介する。多言語コミュニケーション技術の研究開発2.1多言語コミュニケーション技術のパラダイムシフト我が国の多言語コミュニケーション技術の研究開発は1986年頃に、けいはんな(京都、大阪、奈良の3府県にまたがる)の地で始まった(図1)。当時は、ルールベースと呼ばれる手法が主流で、人がルールを書き、そのルールに従って入力音声を機械処理し、対象言語の音声に変換して出力していた。しかし、人が整合性を保って書けるルールの数は、例えば1言語対あたりせいぜい1万規則程度が限界であり、入力発話の多様性に対し網羅的に対応することは難しかった。そのため、当時は、特定話者のみ、文節に区切って発話した定型的な文のみ、静かな室内での発話のみ、かつ、会議室予約といった限られた話題の範囲でのみ音声翻訳ができるというものであった。また、日本語音声が入力されてから英語の合成音声が出力されるまで、3文節程度の短い文でも20秒程度かかっていた。その後、2000年代頃になって、コーパスベースと呼ばれる手法が主流となり、対応できる範囲が格段に広がった。この手法は、コーパスと呼ばれる言葉のデータベースから統計的にルールを自動獲得して利用するというものである。例えば1言語対あたり必要とされるのは10万文規模のコーパスで、そこからルールを自動獲得し、ルールの優先度を同じくそのコーパスから機械学習により自動学習する。これにより、ルールの網羅性と信頼性が高まり、多様な表現に対応できるようになった。また、不特定の話者にも対応できるようになり、丁寧に発話すれば、一定の条件下であれば屋外でも音声認識可能で、対応できる話題の範囲も生活会話全般にまで広がった。NICTではこの手法に基づき、2009年の全国5観光施設での大規模実証実験を経て、2010年にネットワーク型の多言語音声翻訳アプリ「VoiceTraⓇ」(ボイストラ)を世界に先駆けて公開した。さらに、2010年代半ばにニューラルネットベースのものが主流となり、飛躍的に高精度かつ自然な音声翻訳が可能となった。必要となるコーパスの規模は例えば1言語2図1 多言語翻訳技術の進展4   情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術

元のページ  ../index.html#10

このブックを見る