サンプリングと学習可能なCNNに置き換えたMulti-stream HiFi-GANを提案し(図7)、合成品質を保ちつつ、合成速度を向上させた。さらに、外部アライメント型Parallel Tacotron 2と組み合わせることにより、CPUのみでリアルタイム生成可能な高品質ニューラルTTSを実装した[17]。また、メルスペクトログラムではなく、ソースフィルタボコーダ用の低次元な音響特徴量を用いた場合でも高品質な合成が可能であることを示した[21]。5.4拡散確率モデル拡散確率モデルとは、入力信号に徐々に白色雑音を加えていくと(ステップ0 → N)最終的には白色雑音となる拡散過程に対して、その逆変換であるステップnからn − 1間の雑音除去過程を学習するモデルである(図8)。画像生成において提案された深層生成モデルであるが[41]、すぐさま音声波形生成モデルWaveG-rad [42]とDiffWave [43]が提案された。拡散確率型波形生成モデルでは、入力した白色雑音に対して、雑音除去と少しずつレベルを下げた白色雑音の加算とを交互に繰り返し、 徐々に音声波形へと変換する。そのために、音声波形x0と白色雑音εとを重み付きで重畳した信号を入力とし、重畳した雑音εのみを推定するモデルεθを学習する(図6(e))。合成時は、入力した白色雑音xN∼N (0, I)が雑音除去過程により徐々に音声波形へと変換される(n = N → 1)。WaveGrad及び DiffWaveは上記の学習及び合成アルゴリズムにより実現される。WaveGradは数段のアップサンプリング・ダウンサンプリング層により実現され、DiffWaveはParallel WaveNet [27]等で広く用いられている図6(b)のような非因果的な多段Dilated CNNを採用している。拡散確率モデルは、他の深層生成モデルと異なり、時間信号領域での単純なMSE [43](または L1 [42])損失のみで学習できる。Nを1,000等の非常に大きな値とすれば原音に匹敵する高音質が得られるが、生成時間がリアルタイムとは程遠いため、Nを10以下等に小さくしても高音質を実現できる雑音スケジュールβnをいかに設定するかが課題となる。NICT での取組として、雑音レベルごとに異なるモデルを学習するサブモデリングを提案している。WaveGradや DiffWaveは全ての雑音除去ステップに対して1つのモデルを学習しているが、生成ステップの序盤は雑音成分が優勢、生成ステップの終盤は音声成分が優勢と状況は大きく異なる。この点に着目し、雑音スケジュールを分割し(図9)、それぞれ別々のモデルで学習することにより、合成速度と保ちつつ合成品質を向上できることを示した[16]。5.5End-to-endモデルこれまで紹介した波形生成モデルは音響特徴量から音声波形を出力するモデルであるため、TTSにおいては、別途テキストや音素系列から音響特徴量を推定する音響モデルが必要であった。しかし、音響モデルにより推定される音響特徴量には誤差を含むため、推定した特徴量を用いたファインチューニングを行ったとMel-spectrogramConv1Dkernel:7,channel:512LeakyReLUtanhUpsamplingZero-Padding-basedkernel:63,channel:1SynthesizedWaveformSub-pixelConvolutionUpsampling:⇥8,channels:256Upsampling:⇥8,channels:128Sub-pixelConvolutionConv1Dkernel:7,channels:4MRFMRFConv1Dw/obias4Data-DrivenDecomposedWaveforms図7 Multi-stream HiFi-GAN生成器00.511.522.533.5Time [s]024681012Frequency [kHz]00.511.522.533.5Time [s]024681012Frequency [kHz]00.511.522.533.5Time [s]024681012Frequency [kHz]00.511.522.533.5Time [s]024681012Frequency [kHz]·········x0Di↵usionprocessDenoisingprocessxNxnxn0図8拡散確率モデルにおける拡散過程(左向き方向)及び雑音除去過程(右向き方向)011123456782090111001118874545 !"#$%&'()*+,*-./01210203456,789:;<*=4>???@ABCDEF@>G>?HIJ?K??LJ>???MMNOPQRSTUVWXYZT[\[S]^_S`SR_RSaabcd_cRe図9 拡散確率モデルにおける雑音レベル分割型サブモデリング532-2-6 ニューラル音声合成技術
元のページ ../index.html#59