時通訳技術の社会実装」を目標としたGCP 2025 [69]が遂行されており、GCP2025においてもNICTの技術がその中核を担う予定である。なお、GCP、GCP2025及びNICTの技術展開の詳細については本特集号2-4の記事を参照されたい。GCP2025は講演、会議を対象とした同時通訳を目標としており、その延長として音声認識を用いた自動講演録、会議録生成システムの開発を推進している。本システムでは音声認識のみを用いるのではなく、本特集号2-2-5で解説する言語識別・話者識別技術と組み合わせることにより詳細な講演録、会議録を自動生成することを目指している。4.2多言語音声認識技術の研究開発VoiceTra®では様々な言語による音声入力を受けつけるため、必然的に多言語の音声認識が必要となる。そのため、NICTではアジア言語を中心として以下の19言語の音声認識を開発し、実装している(2022年8月現在)。今後、イタリア語、ドイツ語、ヒンディー語に対応する予定である。 •主要4言語: 日本語、英語、中国語(簡体字)、韓国語 •アジア言語: 台湾華語(繁体字)、インドネシア語、タイ語、ベトナム語、ミャンマー語、フィリピン語、クメール語、ネパール語、モンゴル語 •ヨーロッパ言語: スペイン語、フランス語、ロシア語、ウクライナ語 •その他: アラビア語、ブラジルポルトガル語各言語の音声認識において、主要4言語については人間レベルの音声認識性能を達成しており、他の言語においても実用、準実用レベルの音声認識を達成している*3。英語に関しては、音声翻訳に関する国際ワークショップIWSLTの音声認識チャレンジ(TED講演の英語音声認識タスク)において、2012年から2014年までの3年間連続で性能1位を獲得した[70]–[72]。現状、NICTにおける音声認識の研究開発は、ハイブリッド型音声認識とE2E音声認識の2ラインで実施している。前者のハイブリッド型音声認識は、VoiceTra®を含む実システムのための研究開発であり、日々着実に技術改善している。NICTでは多種多様な音声認識タスクに対応するため、新単語登録等の様々な機能を実現する周辺ツールも合わせて開発している。現在のE2E音声認識の枠組みでは新単語登録等の機能実装が容易ではなく、実システムの開発においては、ハイブリッド型音声認識の需要はいまだ高いと考え、継続的に研究開発を行っている。一方、E2E音声認識は基礎研究レベルでの検討段階にあり、一部言語ではプロトタイプシステムを開発して動作を確認している。今後、多言語化及び実システムの開発に加えて、ハイブリッド型音声認識と同等の周辺機能実装を行い、段階的にハイブリッド型音声認識から移行することを検討している。4.3 耐雑音性・耐残響性の確立VoiceTra®はモバイルデバイス上のアプリであるため、屋内外での利用が想定される。特に屋外では音声入力時に周囲の雑音が混入する場合があり、さらに口(音源)とマイクの距離が遠い場合、雑音だけでなく反射音によって生じる残響も混入する可能性が高い。このような環境下では、雑音や残響の影響により音声認識性能が著しく劣化する。この問題については、データ拡張を行うことにより対処している。すなわち、種々の雑音や残響を人工的に付加した学習用音声データを大量生成し、音響モデル学習を行っている。また、音声データに対して意図的にランダムなデータ欠損を生じさせる手法[51]も導入して、音声認識の耐雑音性・耐残響性を確立している。基礎研究レベルでは、多チャネル音声入力を考慮した手法と、複数の単一チャネル雑音除去手法の出力をマルチストリーム入力として受け付ける手法について提案を行った。前者は、Beam-formerと呼ばれる多チャネル信号処理技術をニューラルネットワークで実現し、音声認識のDNN音響モデルと統合して全体最適化を行う手法である[73][74]。この手法は、Beam-formerとDNN音響モデルを1つのニューラルネットワークで記述する部分的なE2E手法となっている。後者についてはStream-wise transformer [75]という手法を提案した。この手法は、複数の雑音除去手法からの出力で構成されたマルチストリーム入力に対して注意機構を適用し、雑音環境ごとに最適なストリーム(雑音除去処理)を自動選択可能とする手法である。今後、これら手法の実システムへの実装について検討を行う。4.4自動字幕表示システムの研究開発NICTでは、総務省の「平成30年度情報通信利用促*3音声認識の性能基準は以下の定義に従っている。•人間レベル: 音声認識結果を読んで問題なく理解できる•実用レベル: 軽微な誤りがあるが音声認識結果を読んで十分に理解できる•準実用レベル: 誤りがあるが音声認識結果を読んである程度理解できる•実験レベル: 誤りが多く音声認識結果を読んで理解するのが難しい•試作レベル: 誤りが多く音声認識結果を読んで理解するのが極めて困難352-2-4 音声認識技術
元のページ ../index.html#41