HTML5 Webook
97/372

893●ユニバーサルコミュニケーション分野は高価な装置であるため、これを必要とする音声合成システムを導入することは、経済的ハードルが高く、汎用CPUで高速処理可能な従来方式からの置換が進まない懸念があることから、汎用のCPUのみを使用し、リアルタイム動作可能な音声合成モデルを開発した。波形生成モデルの構成を工夫した結果(図1)、CPUにより音声時間長の0.15倍の計算時間(6.7倍速)で音声を合成可能となった。この方式を日本語に適用し、音質の自然性を主観評価実験により5段階評価したところ、MOS (Mean Opinion Score)値が男声、女声とも4.3であった。これは、GPGPUを使用する方式と同等であり、肉声に近い値(4.5程度)である。開発した方式をわが国において需要の多い英語、中国語、韓国語及びベトナム語に適用し、多様なテキストが入力された場合の頑健性強化等を行った上で実証実験システムVoiceTraで一般に公開するとともに、商用ライセンスを開始した。3.声質制御音声合成の応用においては、話速の変更が有用であることが多い。例えば自動同時通訳サービスにおいて翻訳結果をテキストと合成音声の両方の手段で伝える場合、両者の表出速度差を短縮するために話速を速くすることが有効である。人間が話す速さを変える場合、発話全体が一様に伸縮するのではなく、音素(言語音声の最小の単位であり、言語ごとに異なる。日本語では、母音と子音合わせて40個程度ある)ごとに伸び縮みのしやすさが異なることが従来から知られている。そこで、音素の継続時間長の分散を考慮して伸縮率を推定する方式をCPUのみで高速動作する音声合成モデルに導入し、伸縮時の音質劣化を主観実験により評価したところ、伸縮率0.75倍から1.25倍の範囲では大幅な音質劣化のないことを確認した。4.日常会話の音声認識・音声合成音声認識用音響モデルの学習データとして、模擬の日常会話を行ってネパール語、クメール語及びモンゴル語について合計1,450時間の音声コーパスを構築した。これらのコーパス等を利用して音声認識モデルを改良し、ネパール語、モンゴル語の日常会話の音声認識において準実用レベル、クメール語においては実用レベル(レベルの定義はいずれも表1に記載)の認識精度を達成した。これらの成果は、順次VoiceTraで公開した。ネパール語、クメール語及びモンゴル語の音声合成に関して、従来方式である隠れマルコフモデルを用いた音声合成モデルを開発し、ネパール語とクメール語で準実用レベル、モンゴル語で実験レベルの品質を達成し、3言語とも商用ライセンスを開始した。なお、音声合成の品質は、MOS値で測定する自然性だけでなく、読み生成処理の精度にも左右され、これは適用対象ジャンルに大きく依存することから、公表する際には、表2のような言葉で表すこととしている。図1 汎用CPUで動作可能な高速・高音質ニューラル音声合成の開発波形生成ネットワークの最終2段を学習可能なサブバンド合成フィルタによる軽量化により高速化を実現入力テキストテキスト解析処理音響特徴量生成モデル(ニューラルネットワーク)音声波形生成モデル(ニューラルネットワーク)合成音声改良前改良後表2 合成音音質の区分S人間レベル読み誤りが少なく,ほとんどのテキストを肉声と遜色のない音質で読み上げるA実用レベル読み誤りが少なく,ほとんどのテキストを明瞭かつ自然に読み上げるB準実用レベル読み誤りが多少あるが,明瞭性・自然性は実用上は問題ないC実験レベル読み誤りがあるが、明瞭性は許容範囲で内容の理解は可能であるD試作レベル読み誤りや不明瞭箇所があって聞き取りが困難なことがある3.4.1 先進的音声翻訳研究開発推進センター

元のページ  ../index.html#97

このブックを見る