ブックタイトル情報通信研究機構年報

ページ
69/318

このページは 情報通信研究機構年報 の電子ブックに掲載されている69ページの概要です。
秒後に電子ブックの対象ページへ移動します。
「ブックを開く」ボタンをクリックすると今すぐブックを開きます。

概要

情報通信研究機構年報

613創る●データ利活用基盤分野3.6 先進的音声翻訳研究開発推進センター徴量を用いる必要があり、合成精度の劣化が生じる。つまり、音響モデルが高精度に構築できたとしても、最終モジュールのボコーダにおいて合成精度が頭打ちとなる問題は残る。この問題を解決するために、ボコーダにも深層学習を導入し、少ない音響特徴量からでも高品質な音声を合成する方式を検討した。提案法では、どの時刻にどの高さの音をどのくらい含んでいるのかを表現するパワースペクトルを用いる。具体的には、ボコーダにより劣化したパワースペクトルを入力、コーパスの原音声そのものの劣化していないパワースペクトルを出力とするニューラルネットワークを音声コーパスにより学習し、ボコーダによる劣化を回復させる手法を検討した(図2 )。日本語女性音声コーパス7,000文を使った実験により、原音声から直接分析した音響特徴量を用いる分析合成音の場合、客観評価及び聴取実験から、提案法により有意に音質が改善することを示した。つまり、提案法により、ボコーダによる音質の上限を底上げすることができる。4 .生活支援ロボット向け音声対話技術の開発少子高齢化社会における生活支援ニーズの増加に資する音声対話技術構築のため、生活支援ロボット向け音声対話手法の研究を平成28年度から開始した。生活支援ロボット向け音声対話においては、雑音環境下での音声認識精度、状況に依存した音声言語理解がボトルネックとなっている。前者については、これまで構築してきたクラウドロボティクス基盤rospeexの音声認識エンジンを最新化するとともに、ロボット用途で想定される雑音環境下に対する雑音抑圧・音声区間検出パラメータのチューニングを行った。後者については、生活支援ロボットの主要タスクである物体操作対話タスクにおいて、コンテキスト情報を入力として物体操作可能性を言語理解結果として出力する手法の構築を行った。その結果、Extremely Randomized Trees手法に基づく提案手法が、ベースライン手法に比べて高い平均精度を達成できることを示した。これらの機能の概念検証を行うため、トヨタ自動車と連携し、生活支援ロボットHSR(図3 )上に応用対話アプリケーションを構築した。本アプリケーションは、10種類の生活支援タスクが実行可能であるとともに、1 万種類以上の商品情報について問い合わせることができる。これらの機能は、rospeexを用いることにより1 ヵ月程度で構築可能である。この成果は、トヨタ自動車共同研究成果報告会において優秀成果賞を受賞している。生活支援ロボットに限定されない多言語対話システムの研究開発を広く促進するために、rospeexの社会展開活動を推進した。rospeexは、ホテルにおける多言語案内ロボット、高齢者施設での会話エージェント、カーナビ・スマートホームの音声インタフェースなどの研究開発に応用され、4 万ユニークユーザを達成した。音声対話ロボット研究のために構築済みのコーパスを整備し、「NICT声優対話コーパス」として公開した。本コーパスは、他の日本語音声合成向け公開コーパスの10倍の規模を有し、音声対話・音声合成研究に利用可能である。また、音声対話技術の成果展開に向け、小売分野における選好評価構造の構築を行った。これにより、具体的な商品の特徴から曖昧なユーザの気分までを含む嗜好プロファイリングが可能になるとともに、プロファイルに応じた推薦対話を可能とした。図2  ニューラルネットワークによるボコーダ音声のパワースペクトル回復図3 生活支援ロボットHSR