HTML5 Webook
58/194

5.2Flow型生成モデルWaveNetの登場からわずか1年で提案された高品質高速生成モデルParallel WaveNet [27]は、Inverse autoregressive flow (IAF) [37]に基づき、教師モデルとしての自己回帰モデルから生徒であるパラレル生成モデルを知識蒸留により学習する。 また、知識蒸留における教師モデルと生徒モデル間のカルバック・ライブラー情報量を解析的に算出可能な WaveNetの出力確率を単一正規分布(分類問題ではなく標準正規分布の平均と分散を推定する回帰問題)としたClariNet [38]も提案されている。具体的には、生徒であるパラレル生成モデル(図6(b))に白色雑音とメルスペクトログラム(音響特徴量)を入力し、音声波形を出力する。出力した音声波形を教師である自己回帰モデル(図6(a))へ入力し、教師モデルの出力と生徒モデルの出力間のカルバック・ライブラー情報量を最小化するように生徒モデルを学習する。これにより、教師モデルと出力確率が一致するように学習されるため、自己回帰型WaveNetと同等の音声品質を保ちつつ、GPUを用いたリアルタイム生成を実現している。NICTにおける取組として、メルスペクトログラムではなく、ソースフィルタボコーダ用の音響特徴量を用いたClariNetの検討[12]や、単一正規分布型Wa-veRNN [13]を提案している。Parallel WaveNetやClariNetは自己回帰型の教師モデルが必要であるのに対して、Flow型生成モデル[39]に基づくWaveGlowが提案された[30]。WaveGlowは全てが逆演算可能なニューラルネットであるため、教師モデルを必要とせず、パラレル波形生成モデルを直接学習できる。学習時は音声波形と音響特徴量を入力し、白色雑音を出力するように学習され、生成時は学習時の逆演算により、白色雑音と音響特徴量を入力し、音声波形を生成できる(図6(c))。Flow型生成モデルでは、学習時の損失関数は最終出力である白色雑音の負の対数尤ゆう度ど及び、各変数変換におけるヤコビアンの総和によりシンプルに与えられ、損失を十分小さくできれば、白色雑音から任意の変換が可能であるため、微細構造や非周期成分も精度よくモデル化・生成できる。しかしこれらモデルは、5.3の敵対的生成モデルと比較した場合、高精度な変換を実現するためには巨大なネットワーク、学習時間及び十分なデータ量が必要となる課題がある。NICTにおける取組として、フルコンテキストラベル入力型Tacotron 2や Transformerと組み合わせたGPUを用いた日本語リアルタイムTTSを検討した [13]–[15]。5.3敵対的生成モデル敵対的生成モデル(Generative adversarial network: GAN)[40]は、実際に信号を生成する生成器と、生成器を訓練するための識別器の2つのニューラルネットを同時に学習する。ここで、GAN においては、生成モデルの確率分布は陽に定めず、生成器は識別器を騙だますように学習される。逆に、識別器は生成器に騙されない(=原信号と生成信号とを見分ける)ように学習される。これら2つのモデルを同時に「敵対的」に学習させることにより、お互いのモデル精度を向上させる。生成器と 識別器に十分な表現能力があり、かつ学習データも十分である場合は、生成器はデータの真の生成確率を獲得できることが理 論的に示されている[40]。つまり、敵対的生成モデルでは、いかに緻密な生成器、識別器を設計・学習するかが鍵となる。敵対的生成モデルに基づく音声波形生成モデルは数多く提案されているが、以下では、現在最も広く使われているHiFi-GAN [33]について述べる。HiFi-GAN [33]は、入力されたフレーム単位の音響特徴量に対して、数段のアップサンプリング層と畳み込みにより、白色雑音の入力なしに直接サンプル単位の音声波形を得る (図6(d))。HiFi-GANでは、生成器にMulti-receptive field fusionという異なるカーネルサイズ、dilationサイズの複数のCNN による出力を統合した畳み込み層を導入することにより、異なる長さの波形パターンを表現できるようになり、Parallel WaveNet等と比べると段数の少ないCNNでありながら、高精度かつ高速な変換を実現している。また、Multi-period discriminatorとMulti-scale discriminatorという2つの識別器を導入することにより、音声波形の周期パターン及び連続性や長期依存性をそれぞれモデル化している。HiFi-GANでは、これらの洗練されたネットワークにより、高速かつ高品質な音声合成を実現している[33]。これらのモデルは、白色雑音を入力していない(=サンプリングしない)ため、同じ特徴量では毎回同じ波形を出力する。サンプリングなしで高品質な合成を実現できるのは、生成器が音響特徴量に対する適切な微細構造及び非周期成分を「コピー」し、識別器に見破られないようにそれらを適切に「ペースト」して出力しているためであると考えられる。ClariNetや他のパラレル生成モデルはリアルタイム生成のためにはGPU が必要であるのに対して、HiFi-GANはCPUのみで高品質かつリアルタイム生成が可能なパラレルモデルであり、かつ公式実装が公開されていることもあり、現在最も広く使われているニューラル音声波形生成モデルである。NICTの取組としては、HiFi-GAN生成器における最後の4倍のアップサンプリングをゼロ挿入型アップ52   情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術

元のページ  ../index.html#58

このブックを見る