接続方式[23]や、HMM型TTSやDNN型TTSでは、ソースフィルタ理論に基づき、音響特徴量を基本周波数(=声帯振動に対応)、スペクトル包絡(=声道形状に対応)及び非周期成分とし、信号処理を用いて波形生成を行うソースフィルタボコーダ (STRAIGHT [24]、WORLD [25]等)が用いられてきた。しかし、素片接続方式については要求される音声データの分量と接続部の音声劣化、ソースフィルタボコーダについては最小位相及びフレーム内の周期性の仮定や特徴量分析等が、それぞれ肉声感を阻む大きな要因となり、DNN音響モデル[3][4]によって精度の高い音響特徴量が推定できたとしても、高品質な合成には至らなかった。そこへ2016年9月に突如登場し、TTSやVCに革命をもたらし、肉声感のある音声合成を実現したのがWaveNet [6]である。音声波形生成モデル:WaveNetWaveNet [6]は、過去の音声波形サンプルx0,···,xt-1を入力とし、フレーム単位にアップサンプリングしたテキスト解析結果である言語特徴量hで条件付けした場合の、時刻t の音声波形の条件付き出力確率p(xt |x0 , · · · , xt-1, h)を出力するニューラルネットである(図2(a))。ここで、過去の音声波形の周期パターン、非周期性や微細構造等の特徴を効果的に捉えるために、多段の因果的なDilated convolutional neural network (CNN)を用いている。さらに、音声波形に8 bit μ-law量子化を適用し、MSE損失最小化のような回帰問題ではなく、256階調の分類問題として交差エントロピー損失を最小化するようにモデルを学習している。これにより、正規分布ではなく、任意の確率分布形状をモデル化できる。そして、音声の周期性及び非周期成分を適切に表現するために、生成時は出力確率に基づいた「サンプリング」により出力波形値xtを得る。つまり、入力された過去の波形及び言語特徴量からWaveNetが次のサンプルは周期性が高いと推定した部分では出力される確率分布p(xt |x0 , · · · , xt-1, h)は尖った形をしており(=サンプリングしてもほぼ決まった値が選ばれる)、逆に非周期性が高いと推定した部分では確率分布p(xt |x0 , · · · , xt-1, h)はフラットとなる(=どの値が選ばれるかはランダム)。これらの原理により、2で述べた従来の素片接続方式及びソースフィルタボコーダの問題点を解決し、肉声感のある高品質な合成を実現した。WaveNetの成功を受けて、言語特徴量ではなく、ソースフィルタボコーダの音響特徴量で条件付けされたWaveNetボコーダ[26](図2(b))が提案され、同じくソースフィルタボコーダを上回る品質を実現した。これ以降、数多くの「ニューラルボコーダ」が登場し、TTS、VC及び歌声合成等において、ニューラルボコーダが使われるようになった。WaveNetは自己回帰モデルであるため、過去の波形情報を入力として使える分推定問題としては容易となり高品質な合成を実現できるが、生成時間がリアルタイムとは程遠いという課題があった(1秒の音声を合成するのにGPUを用いても200秒)。しかし、WaveNetの登場からわずか1年で、白色雑音と言語特徴量を入力すると全てのサンプルを同時に生成可能なParallel WaveNet [27]が提案され、リアルタイムな高速生成が可能となった(5. 2参照)。NICTにおいてもWaveNetの高品質生成能力に着目し、WaveNetの登場初期から検討を行い、ノイズシェーピング[28]及びサブバンドWaveNet [9]–[11]を提案した。前者ついては、WaveNetの誤差分布は通常周波数上にフラットに広がるが、高域は音声のパワーが小さいため誤差が目立ちやすくなる問題に対して、ノイズシェーピングによりあらかじめ高域のスペクトルを持ち上げた音声で学習することにより、知覚的な音質劣化を低減できる。ノイズシェーピングはWaveNet以外の自己回帰型音声波形生成モデルにおいても有効である[11][12]。 後者のサブバンド化については、図3 に示すとおり、音声波形をマルチレート信号処理によって複数帯域の信号に分割し、帯域ごとにWaveNetを学習、生成することにより生成速度を向上させることができる方式である。また、複数話者で学習したWaveNetボコーダに時間伸縮した音響特徴量を入力することにより、学習に用いていない任意の話者に対するニューラル話速変換を提案し、従来の信号処理に基づく方式よりも高品質な変換を実現できることを示した[18]。そして、Sequence-to-sequence型TTSモデルTaco-3ResidualblockResidualblockResidualblockResidualblock+ReLU1×1CNNReLU1×1CNNSoftmaxp(xn|x0,···,xn−1)Skipconnections······Residualblock+1×1CNN2×1dilatedCNN×tanhσUpsamplelayerLinguisticAcousticfeaturesfeatures(a)WaveNet(b)WaveNetvocoder図2 (a): WaveNet、(b): WaveNetボコーダ492-2-6 ニューラル音声合成技術
元のページ ../index.html#55