HTML5 Webook
56/194

tron 2 [7]が提案され、図1(a)の音響特徴量をメルスペクトログラムとしてWaveNetボコーダへ入力(=条件付け)することにより、英語テキスト入力のTTSにおいて、ついに人間と同等の合成品質を実現した。以下では、WaveNet及びTacotron 2登場以降のニューラルネットに基づくTTS音響モデル及び音声波形生成モデルの急速な進展について紹介する。ニューラルTTS音響モデル4.1自己回帰型モデルこれまでのHMM音響モデル[1]やDNN音響モデル[3][4]では、テキストと音響特徴量間の時刻対応付けである音素アライメントが必要であり、HMM等を用いて別途外部アライメントモデルを学習する必要があった。また、フレーム単位の学習であるため、言語特徴量には前後の音素やアクセント等の情報を含める必要があった。これに対して、Tacotron 2では、Sequence-to-sequenceモデルとして発話単位の学習となるため、前後の音素の情報は不要となり、また、ニューラル機械翻訳で提案された注意機構を導入することにより、外部アライメントモデルなしで直接アライメントの推定が可能となった[7]。Tacotron 2は再帰的ニューラルネットを用いているため学習が遅いという問題に対して、同じくニューラル機械翻訳で提案されたTrans-formerを用いた音響モデルも提案され、Tacotron 2と同等の高品質合成を実現した[29]。NICTにおける取組として、日本語のようなピッチアクセント言語に対応した Tacotron 2として、図4に示すテキスト解析結果であるフルコンテキストラベル入力型モデルを提案し、後述するWaveGlowボコーダ[30]と組み合わせることにより、高品質かつGPUを用いたリアルタイム生成が可能な日本語ニューラルTTSを実現した[13]。さらに、注意機構は外部アライメントは不要であるが、まれに推定時にアライメント予測に失敗し、発話が途中で止まる、スキップされる音素や繰り返し発話される音素を生じる致命的な問題4(a) Training stageSubband WaveNetSingle-sideband modulation-based analysis filtering#M#M#MWaveNet for N-th bandWaveNet for 2nd bandWaveNet for 1st band·········Fullband waveformxxNx2x1Additional inputh(b) Synthesis stageWaveNet for 1st bandWaveNet for 2nd bandWaveNet for N-th band"M"M"MSingle-sideband modulation-based synthesis filteringFullband waveformˆxˆx1ˆx2ˆxNˆx1ˆx2ˆxNAdditional inputh·········図3  サブバンドWaveNetlayerlayersBidirectionalLSTMlayers2LSTMFull-contextlabelvectorLinearprojectionLinearprojectionStoptoken3conv2layerpre-net5convlayerpost-netLocationsensitiveattention1⇥1convMel-spectrogram+NeuralvocoderSpeechwaveformInputtextTextanalyzerReplacedcomponents図4  フルコンテキストラベル入力型Tacotron 2Full-contextlabel3bidirectionalLSTMlayersLinearlayer(Frame-level)(Frame-level)AcousticfeaturesPhonemedurationlabellevel)PhonemedurationFull-contextlabel(Phoneme-level)TacotronencoderFrame-levelfeaturesTacotrondecoder(Frame-level)AcousticfeaturesFull-contextlabel3bidirectionalLSTMlayers(Frame-level)(Frame-level)AcousticfeaturesTacotrondecoderPhonemedurationFull-contextlabel(Phoneme-level)ventionalacousticmodel(c)seq2seqmodelusingphonemedurationForcedattention(Tacotronwithforcedattention)CAMPAMFATwithTacotrondecoderandphonemeduration(d)proposedacousticmodel図5  音素継続長入力型sequence-to-sequence音響モデル50   情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術

元のページ  ../index.html#56

このブックを見る