88■概要当研究室では、第5期中長期計画において次の3つの研究開発課題に取り組んでいる。第一に、日英中等の重点言語に関してビジネスや国際会議での講演及び議論の音声を実用的な精度で自動文字化するための音声認識技術。音声認識精度の向上においては、モデル化手法の改良と並行して音声認識モデルを学習するための大規模な音声コーパス(音声とその内容を文字起こししたテキストを大量に集積したデータ)の構築が不可欠である。第二に、翻訳結果等を円滑に伝達するための肉声レベルの音声を合成する技術及び自然性劣化を極力抑えつつ、話速等の声質を制御する技術。音声合成においてもモデル化手法の改良とモデル学習用音声コーパスの構築を並行して進めることが重要である。第三に、日常会話の音声認識及び音声合成に関して対象とする言語の拡大。現在は、特定技能制度によりわが国に在留する外国人の生活・仕事を支援することを目的として、ネパール、クメール、モンゴルの各言語をおもな対象としている。令和3年度は、第一の課題に関して日英中各言語の模擬講演・模擬会議の音声コーパスの拡充及び日英両言語の音声認識精度の改良を行った。また、音声認識エンジンに関して処理遅延時間を短縮するとともに、1時間程度の安定動作を可能とした。第二の課題に関して汎用のCPUを用いてリアルタイムで音声合成可能なニューラルネット型の音声合成モデルを開発した。さらに、伸縮可能範囲が広い話速変換技術を開発した。第三の課題に関して前記3言語の音声認識用音声コーパスの拡充、音声認識精度の改良及び従来方式による音声合成モデルの開発を行った。■令和3年度の成果1.講演・会議の音声認識講演、議論における発声では、音声翻訳アプリ等でスマートフォンに向かって1文ずつ丁寧に発話する場合と異なり、正確に調音しようとする意識が働きにくいために明瞭性が低下し、音響的特徴の分布も変化する傾向がある。このような音声を明瞭に発話された音声用の音響モデルで識別しようとすると、音声の特徴量が識別境界から外れるために認識精度が大きく劣化する。これに対処するため、すでに構築ずみの明瞭に発話された音声コーパス(日英中韓は2,000時間、その他の言語は1,000時間)を基本として、明瞭性が低下した音声のコーパスを30%程度追加して音響モデルを学習し、識別境界をそのような音声に適応させる。音声コーパスの素材は、実際の講演、会議から取得することが望ましいが、機密保持、個人情報保護、著作権保護など解決困難な課題が多いことから、模擬講演、模擬会議を中心としてコーパス構築を進めている。令和3年度は、日英中の3言語について発話時の状況設定を改まった場面から気楽な場面の間で複数通りに設定することで合計1,050時間の音声コーパスを構築した。前年度に構築した音声コーパスを用いるなどして音声認識モデルの改良を行い、摸擬講演・模擬会議の音声において日本語では人間レベル、英語では実用レベルの精度を達成した。リアルな講演の音声認識においては、現時点では、日本語では実験レベルの精度である。なお、音声認識精度は、単語誤り率で定量的に測定可能であるが、テスト用音声データの内容によって数値が大きく変動するため、公表する際には、表1のような言葉で表すこととしている。講演、会議等の長文の音声認識では、部分認識結果を遅滞なく返却することが良好なユーザ体験を与える上で有効であることから、アルゴリズム及び音響モデルの改良を行い、文中の単語が音声認識エンジンに入力されてから結果が出力されるまでに4.1秒要していたものを2.1秒に短縮した。2.肉声レベルの音声合成前年度に日本語についてニューラルネットを用いた高品質音声合成モデルを開発したが、音声翻訳サービスなどリアルタイム性が必要な用途では、計算を高速に行うためにGPGPUが必要であった。しかしながら、GPGPU表1 音声認識精度の区分S人間レベル音声認識結果を問題なく読んで理解できるA実用レベル軽微な誤りがあるが音声認識結果を読んで十分に理解できるB準実用レベル誤りがあるが音声認識結果を読んである程度理解できるC実験レベル誤りが多く音声認識結果を読んで理解するのが難しいD試作レベル誤りが多く音声認識結果を読んで理解するのが極めて困難3.4.1.1先進的音声技術研究室室長 河井 恒ほか15名講演・会議の同時通訳に向けた音声の認識・合成技術の研究開発
元のページ ../index.html#96