ブックタイトル情報通信研究機構年報

ページ
68/318

このページは 情報通信研究機構年報 の電子ブックに掲載されている68ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。

概要

情報通信研究機構年報

60■概要当研究室では、機械を介した音声コミュニケーションの基盤となる音声認識、音声合成、音声対話処理の各技術の研究開発に取り組んでいる。東京2020オリンピック・パラリンピック競技大会までに音声翻訳技術の社会実装を実現することを目指して、実用的な性能を有する多言語の音声認識・音声合成技術の開発を推進した。一方、2020年以降の世界を見据えて、高雑音・残響、複数話者等困難な条件下での音声認識技術及び生活支援ロボット向け音声対話技術の研究を行った。■平成28年度の成果1 . 2020年に向けた多言語音声認識・音声合成技術の研究開発音声認識技術の基盤として、独話形式の音声収録等の方法により、スペイン語、フランス語を含む合計1,800時間の音声コーパスを構築した。音声認識に関して、フランス語及びスペイン語の音声認識システムの新規開発、中国語及びフランス語の認識精度改良を行い、成果を実証実験のための音声翻訳アプリVoiceTraで一般に公開した。平成28年度末の時点で、グローバルコミュニケーション計画が対象とする10言語(日、英、中、韓、タイ、ベトナム、インドネシア、ミャンマー、スペイン、フランス)すべてについて商用ライセンスの提供が可能となっている。音声合成に関しては、タイ語音声合成システムの新規開発、ミャンマー語音声合成システムの音質改良を行い、いずれもVoiceTraで一般公開した。2 .現場音声認識技術の研究音響モデルへのディープニューラルネットワーク(DNN:Deep Neural Network)の導入は、音声認識の研究における近年のブレークスルーであった。当研究室でも早くからDNNを取り入れ、音声認識精度の改良に取り組んできた。最近では、音声認識システムの頑健性や開発時の柔軟性向上を図るため、従来時間軸の正規化に用いられていたHMM(Hidden Markov Model)を廃し、DNNのみで構成されるend-to-end型音響モデルの研究に取り組んでいる。end-to-end型音響モデルを用いた多くの音声認識システムでは、デコーディング時に外部の言語モデルを参照しており、サブワードとワード単位の対応関係を明示的に考慮することが困難であった。これに対して当研究室では、図1 のような最大事後確率推定型デコーディング方法を提案し、サブワード言語モデルとワード言語モデルの明示的な統合を可能にした。提案法によれば、音響モデル、サブワード言語モデル及びワード言語モデルをベイズ定理に基づく理論的枠組みの中で容易かつ柔軟に統合することが可能であり、実験結果においても音声認識精度向上が確認された。3 . 音声合成コア技術の開発(深層学習によるボコーダ音声の高音質化)統計的音声合成技術において、(1)テキストから中間表現のラベルに変換するテキスト解析、(2)ラベルから音響特徴量へと変換する音響モデル、(3)音響特徴量から音声波形へと変換するボコーダ(信号生成フィルタ)、の3 つが課題である。近年、音声認識と同様、音声合成の音響モデルにも深層学習が導入され、従来よりも高品質な合成を実現しており、当研究室でも2015年から開発を進めている。原音声と同品質の音声の合成には数千ものパラメータを持つ音響特徴量が必要であるが、数百次元のラベルから緻密な特徴量を推定することは難しいため、統計的音声合成では比較的少ない音響特先進的音声技術研究室室長  河井 恒 ほか21名3.6.1グローバルコミュニケーション計画に向けた音声技術の研究開発図1  end-to-end型音響モデル、サブワード言語モデル、ワード言語モデルの音声認識システムへの組込