に対して、Tacotron 2やTransformerに既存の外部アライメントを組み込んだ高品質かつ安定したニューラルTTSを提案した(図5)[14][15]。4.2非自己回帰型モデルTacotron 2やTransformerはニューラル音声波形生成モデルと組み合わせることにより非常に高品質なTTSを実現できるが、上述のとおり、注意機構の予測失敗による発話の破綻、失敗という実サービスにおいては致命的な問題を有する。また、注意機構に基づくモデルは次のフレームの出力を得るために過去の出力を入力とする自己回帰モデルであるため、生成速度が遅いという課題があった。これらの問題を解決するために、非自己回帰 Sequence-to-sequence型ニューラルTTS音響モデルであるFastSpeech [31]が提案され、安定かつ高速なTTSを実現した。FastSpeechでは、教師モデルとして学習した Transformerの音素アライメントを用いて音素継続長モデルを学習し、自己注意型ネットワークを用いたエンコーダ出力を音素継続長に応じてアップサンプリングを行い、同じく自己注意型ネットワークを用いたデコーダで音響特徴量を出力する。さらに、教師モデルや外部アライメントを必要とせず、Soft-DTWを用いて音素アライメントを自動で獲得しつつ、自己回帰型モデルと同等の品質を実現するParallel Tacotron 2 [32]などが提案されている。NICTの取組としては、外部音素アライメントモデルを導入した安定して学習可能な Parallel Tacotron 2を実装し、後述するMulti-stream HiFi-GANと組み合わせて、CPU のみでリアルタイム生成可能な高品質TTSを実現した[17]。ニューラル音声波形生成モデルWaveNetの成功と課題を受けて、肉声感のある高品質を保ちつつ、リアルタイム高速生成可能なニューラル音声波形生成モデルが数多く提案された。いずれも、画像生成分野等で開発された深層生成モデルを音声波形生成へと移植したモデルとなっており、以下の4 種類に大別される。以下では、それぞれのモデルの特徴及びNICTにおける取組について紹介する。ここで、自己回帰モデル(図6(a))以外は全ての音声波形サンプルを一度に生成するパラレル生成モデル(図6(b)-(e))であり、高速生成を実現できるが、過去の波形情報を使えないため、推定問題としては難しくなる。しかし、5.3で紹介するHiFi-GAN [33]等の高尚な深層波形生成モデルでは、高速生成かつ自己回帰モデルを超える高音質を実現している。5.1高速型自己回帰型モデルWaveNetは非常に巨大なネットワーク構造であるためリアルタイム生成できない問題に対して、自己回帰モデルではあるがネットワークが軽量であるため、CPUのみで高品質かつリアルタイム生成を実現可能なWaveRNN [34]やLPCNet [35]が提案されている。しかし、これらの自己回帰モデルは、特にTTSやVCで推定された「鈍った」音響特徴量を用いた場合、ごくまれに突然波形がクリップし、爆音を発する「Col-lapsed speech [36]」を生じるため、実サービスでの実装ではこの問題を解決しておくことが必須である。NICTでの取組としては、LPCNetは1時間程度の音声データで学習可能であることを示し[19]、また、人間の可聴域をカバーするサンプリング周波数48kHzの音声合成を可能とするFull-band LPCNetを提案している[20]。5AcousticfeatureshorRNNlayersSamplingDilatedCNNlayers(Causal)PrevioussamplesUpsamplingConditioning...Ininferecee.g.WaveNet,WaveRNN,LPCNetProbabilityp(xt|x0,···,xt−1,h)Nextsamplext(a)Auto-regressivemodelsGaussiannoiseUpsamplingConditioning...DilatedCNNlayers(Non-causal)GaussiannoiseInvertiblelayersUpsamplingConditioning...Upsampling+CNNlayersUpsampling+CNNlayers......Di↵usionprobabilisticmodelsConditioningOriginalwaveformx0Gaussiannoise✏p¯↵x0+p1−¯↵✏Noiselevelp¯↵Gaussiannoise✏IntrainingIninferenceIntraininge.g.ClariNet,ParallelWaveGANe.g.WaveGlow,WaveFlowe.g.MelGAN,HiFi-GANe.g.WaveGrad,Di↵Wave,BDDM(b)CNN-basedmodels(c)Flow-basedmodels(d)Upsampling-basedmodels(e)Di↵usionprobabilisticmodelsParallelwaveformgenerativemodelsSpeechwaveformSpeechwaveformSpeechwaveform図6ニューラルネットワークを用いた音声波形生成モデル。(a): 自己回帰モデル、(b):畳み込みニューラルネット型パラレル生成モデル、(c):Flow型パラレル生成モデル、(d):アップサンプリング型パラレル生成モデル、(e):拡散確率型パラレル生成モデル512-2-6 ニューラル音声合成技術
元のページ ../index.html#57