ための音声・テキストコーパスのみならず、機械翻訳のための対訳コーパスも、音声合成のための音声・テキストコーパス*4も、コーパス内に出現する語彙数に限りがある、あるいは低頻度のために確率的に出力単語として選択されにくいため、語彙拡張のための単語辞書が必要となる。そこでNICTでは音声翻訳のための多言語対訳辞書の整備も進めている。専門用語や固有名詞などは、別に辞書として作成して、それらにカテゴリ(クラス)と発音を付与して登録しておくことで、コーパス内に存在する同カテゴリ(例えば、「動植物クラス」としてのサクラやヒマワリ)の出現確率を利用して、コーパス内には存在しない、あるいは低頻度の単語(例えば、エノコログサ)が候補として選択されやすくなるようにしている。現在、GC15言語の音声認識モデルについては、この仕組みを導入しており、GCPにおいては、国内の観光スポット名や、市町村名、医療用語、防災用語等、観光・生活ドメインのGC15言語間対訳辞書として整備し、さらにGCP2025においては、ビジネス用語、専門用語の対訳辞書を整備し、機械翻訳、音声合成の辞書としても共有し、音声翻訳全般の精度向上に役立てている。むすび本稿では、NICTで開発を進めている、多言語音声コーパスの概要と、その設計、開発の歴史などについて紹介した。開発にあたっては、その品質を確保するための様々な取組を行っており[2]、その甲斐もあって、GC15言語については、数百~数千時間規模の音声コーパスの構築を達成しており、現在もGCP2025の開発目標に向けて、精力的にコーパスの開発を進めている。その一方で、音声翻訳の技術も日進月歩であり、例えば、音響モデルと言語モデルの区別のない、入力音声と出力単語列を直接結ぶようなフレームワーク(end-to-end音声認識)や、音声認識結果を機械翻訳に入力するのではなく、入力音声を直接、目標言語に翻訳するフレームワーク(end-to-end音声翻訳)なども各国で研究開発が進められている。音声コーパス開発の課題としては、それらの新しいフレームワークにあわせて都度、適応的なコーパス設計をするだけでなく、様々な用途に利活用可能な、汎用的なコーパス設計も求められていると考えている。参考文献】【1今村 賢治,隅田 英一郎,“グローバルコミュニケーション計画のための多言語パラレルコーパス,” 言語処理学会第24回年次大会発表資料集, pp.512-515,2018.2水上 悦雄,榎本 成悟,テオリン アクセル エリック,加藤 宏明,河井 恒,“多言語音声コーパスの人-機械品質検査手法,” 言語処理学会第24回年次大会発表資料集, pp.817-820,2018.水上 悦雄 (みずかみ えつお)ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター先進的音声技術研究室主任研究技術員博士(理学)音声言語コーパス、コミュニケーション科学、対話研究【受賞歴】2008年 社会言語科学会 2007年度徳川宗賢賞萌芽賞加藤 宏明 (かとう ひろあき)ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター先進的音声技術研究室主任研究員博士(工学)音声言語コーパス、聴覚・音声コミュニケーション【受賞歴】1995年 日本音響学会 第12回粟屋潔学術奨励賞4*4音声認識のための音声コーパスが、多様な人による、多様なスタイルの大量の音声データから成るのに対して、音声合成のための音声コーパスは、一人のプロの発声者による、正確な発音の、一定量(音素列の網羅性は必要)の音声データから成る。132-2-1 多言語音声コーパス
元のページ ../index.html#19