ていたため、自然音声の品質にはまだ届かず、課題解決には至らなかった。しかし、その課題を解決に導いたのが、2016年9月にGoogle DeepMindから突如提案された音声波形生成ニューラルネットモデルWaveNet [6]であり、翌年に提案された Tacotron 2 [7]により、TTSにおいてついに自然音声と同等の品質を達成した。そこから非常に数多くのモデルが提案され、現在ではCPUのみを用いて高品質かつリアルタイムなTTSが可能となっている。NICTにおいても、2022年3月に、最先端のニューラルネットワーク技術を用いた日英中韓越5言語のニューラルTTSをVoiceTra®に搭載した。VoiceTra®では、現在合計19言語の多言語TTSが利用可能であり、日英中韓越以外の言語についても順次ニューラルTTSへと更新予定である。本稿では、10年前の報告[2]と同様、TTSのみに焦点を当て、ある話者の声を別の話者の声に変換する声質変換(Voice conversion: VC) [8]技術については割愛する。まず、2においてTTSにおける音声波形生成問題の難しさについて述べる。次に、3でWaveNetを紹介した上で、4において入力テキストから音響特徴量を推定するニューラルTTS 音響モデルを解説し、5にて音響特徴量から音声波形を生成するニューラル音声波形生成モデル及び音響特徴量を介さず1つのニューラルネットワークを用いてテキストから音声波形を直接生成可能であるEnd-to-endモデルを紹介する。また、4及び5において、NICTにおける取組(筆者らの査読論文[9]-[21])について適宜紹介する。最後に、6にてまとめと今後の課題について述べる。なお、紙面の都合上、参考文献は主要なもののみを引用している。また、5のニューラル波形生成モデルの詳細については著者による解説記事[22]を参照されたい。TTSにおける音声波形生成問題の難しさ従来のTTSでは、入力テキストと出力音声間の中間表現として、音声波形を短時間フレームごとに周波数分析した音響特徴量が用いられる。図1(a)に示すとおり、入力文がテキスト解析により音素(+ アクセント)系列へと変換され、音響モデルにより音響特徴量へと変換される。ここで、各音素が音響特徴量の何フレーム分に相当するかは、音素アライメントによる音素継続長モデルや注意機構モデルにより推定され、変換時は各音素のフレーム数に応じた不均一なアップサンプリングにより、時間解像度が音素単位からフレーム単位となる。次に、音声波形生成モデルにより、音響特徴量から音声波形を生成する。ここで、 音響特徴量は音声波形から固定のフレームシフト量で分析するため、均一なアップサンプリングにより、時間解像度がフレーム単位からサンプル単位へと変換される。一方、End-to-endモデルでは、陽な音響特徴量は介さないものの、エンコーダからフレーム単位の中間特徴量を生成し、デコーダにより音声波 形を生成する(図1(b))。つまり、現状の TTSでは、音素から中間特徴量への不均一なアップサンプリング及び中間特徴量から音声波形への均一なアップサンプリングの2段階の異なるアップサンプリングにより、テキストから音声波形への変換を実現している。例えば、英単語「hello」の場合、アルファベットではたった5文字であるが、音声波形になると、仮に長さ1.0秒としても、 サンプリング周波数24 kHz、フレームシフト量 12.5 msの場合は、80フレーム、24,000サンプルにも及ぶ。通常、人間は全く同じ発話は二度と発声できないため、聴感上は同じであっても、フレーム単位、サンプル単位では発話ごとに毎回異なる。つまり、TTSにおける音声波形生成問題とは、入力された系列長の数千倍以上(フレーム単位からは数百倍)の出力系列を「確率的」に求める極めて難しい問題である。また、ニューラルネットを含む機械学習における回帰問題では、学習データと出力結果間の平均二乗誤差(Mean square error : MSE)損失を最小化するようにモデルを学習するが、音声信号は波形信号ではあるが非周期成分(=ランダム性)も多く含まれているため、MSE損失では標準正規分布の平均値しか推定できず(=非周期成分は平均化されてしまい精度よく生成できない)、音質に大きな影響を与える。そのため、従来は多数の音声波形を短い素片成分へと分割し、それらをつなぎ変えて波形を生成する素片2AcousticfeaturesSynthesizedspeechwaveformCharactorPhonemeFrameSampleUniformupsamplingInputtextPhonemesequenceSynthesizedspeechwaveformIntermediatefeaturesEncoderDecoderText-analyzer(G2P)(a)PipelineTTSmodels(b)Entireend-to-endTTSmodelsAcousticmodels(includingdurationmodels)Speechwaveform(=Neuralvocoders)generativemodelsNon-uniformupsampling(=Alignment)Temporalresolutionunit図1ニューラルネットワークを用いたテキスト音声合成モデル。(a): パイプラインモデル、(b):End-to-endモデル48 情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術
元のページ ../index.html#54