HTML5 Webook
60/194

しても、多少の音質劣化は避けられない。この問題を解決するために、テキストや音素系列から音声波形を1つのニューラルネットで直接生成可能なEnd-to-endモデルがいくつか提案されている。その中でも、HiFi-GANをデコーダとする VITS [44]は原音に匹敵する非常に高音質なEnd-to-endモ デルである。NICTにおいても、更なる高品質化を目指し、End-to-endモデルの検討も行っている。おわりにこれらの深層生成モデルを用いることにより、単一話者TTSモデルにおいては、自然音声と同等の音声波形をCPUのみでリアルタイムで生成できるまでに至っており、NICT では2022年3月よりVoiceTra®にて日英中韓越の5言語において、CPUのみでリアルタイムに動作する高品質ニューラルTTSを採用 しており、更なる多言語化、高品質化に向けて研究開発を行っている。また、音声合成研究をより一層加速させるために、NICTから2022年に日本語(男女各20,000文)及び英語(男女各14,000文)の対話調音声合成用コーパスを公開する。今後は、学習データには含まれない未知話者に対応した複数話者TTSモデル[45]や歌声合成等のフル帯域合成[20]の高精度化等が課題となる。また、基本周波数[46]や話速[18]を自在に制御可能な波形生成モデルの検討も重要であり、いかにデータの範囲外の基本周波数や話速を外装できるかが課題である。一方、ここまで合成品質が高くなるとそれを悪用する試みも考えられる。合成音声を安全に利用するために、自然音声と合成音声とを適切に見分ける識別技術 [47]の開発も重要な課題として取り組む必要がある。参考文献】【1K. Tokuda, Y. Nankaku, T. Toda, H. Zen, J. Yamagishi, and K. Oura, “Speech synthesis based on hidden Markov models,” Proc. IEEE, vol.101, no.5, pp.1234–1252, May 2013.2志賀 芳則, 河井 恒, “多言語音声合成システム,”情報通信研究機構季報、vol.58, no.3/4, pp.19–25, Sept. 2012.3H. Zen, A. Senior, and M. Schuster, “Statistical parametric speech synthesis using deep neural networks,” Proc. ICASSP, , pp.7962–7966, May 2013.4Z.-H. Ling, S.-Y. Kang, H. Zen, A. Senior, M. Schuster, X.- J. Qian, H. Meng, and L. Deng, “Deep learning for acoustic modeling in para-metric speech generation: A systematic re- view of existing techniques and future trends,” IEEE Signal Process. Mag., vol.32, no.3, pp.35–52, May 2015.5K. Tachibana, T. Toda, Y. Shiga, and H. Kawai, “Model integration for HMM- and DNN-based speech synthesis using product-of-experts framework,” Proc. Interspeech, pp.2288–2292, Sept. 2016.6A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, “WaveNet: A generative model for raw audio,” Proc. SSW9, p.125, Sept. 2016.7J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang, Y. Wang, R. Skerry-Ryan, R. A. Saurous, Y. Agiomyrgiannakis, and Y. Wu, “Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions,” Proc. ICASSP, pp.4779– 4783, April 2018.8S. H. Mohammadi and A. Kain, “An overview of voice con- version systems,” Speech Commun., vol.88, pp.65–82, April 2017.9T. Okamoto, K. Tachibana, T. Toda, Y. Shiga, and H. Kawai, “Subband WaveNet with overlapped single- sideband filterbanks,” Proc. ASRU, pp.698– 704, Dec. 2017.10T. Okamoto, K. Tachibana, T. Toda, Y. Shiga, and H. Kawai, “An inves-tigation of subband WaveNet vocoder covering entire audible fre-quency range with limited acoustic features,” Proc. ICASSP, pp.5654–5658, April 2018.11T. Okamoto, T. Toda, Y. Shiga, and H. Kawai, “Improving FFTNet vo-coder with noise shaping and subband approaches,” Proc. SLT, pp.304–311, Dec. 2018.12T. Okamoto, T. Toda, Y. Shiga, and H. Kawai, “Investigations of real-time Gaussian FFTNet and parallel WaveNet neural vocoders with simple acoustic features,” Proc. ICASSP, pp.7020–7024, May 2019.13T. Okamoto, T. Toda, Y. Shiga, and H. Kawai, “Real- time neural text-to-speech with sequence-to-sequence acoustic model and WaveGlow or single Gaussian WaveRNN vocoders,” Proc. Interspeech, pp.1308–1312, Sept. 2019.14T. Okamoto, T. Toda, Y. Shiga, and H. Kawai, “Tacotron-based acoustic model using phoneme alignment for practical neural text-to-speech systems,” Proc. ASRU, pp.214–221, Dec. 2019.15T. Okamoto, T. Toda, Y. Shiga, and H. Kawai, “Transformer-based text-to-speech with weighted forced attention,” Proc. ICASSP, pp.6729–6733, May 2020.16T. Okamoto, T. Toda, Y. Shiga, and H. Kawai, “Noise level limited sub-modeling for diffusion probabilistic vocoders,” Proc. ICASSP, pp.6014–6018, June 202117T. Okamoto, T. Toda, and H. Kawai, “Multi-stream HiFi- GAN with data-driven waveform decomposition,” Proc. ASRU, pp.610–617, Dec. 2021.18T. Okamoto, K. Matsubara, T. Toda, Y. Shiga, and H. Kawai, “Neural speech-rate conversion with multispeaker WaveNet vocoder,” Speech Commun., vol.138, pp.1–12, March 2022.19K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, Y. Shiga, and H. Kawai, “Investigation of training data size for real-time neural vocoders on CPUs,” Acoust. Sci. Tech., vol.42, no.1, pp.65–68, Jan. 2021.20K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, Y. Shiga, and H. Kawai, “Full-band LPCNet: A real-time neural vocoder for 48 kHz audio with a CPU,” IEEE Access, vol.9, pp.94923–94933, 2021.21K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, and H. Kawai, “Comparison of real-time multi-speaker neural vocoders on CPUs,” Acoust. Sci. Tech., vol.43, no.2, pp.121–124, March 2022.22岡本 拓磨, “ニューラルネットワークに基づく音声波形生成モデル,”日本音響学会誌、vol.78, no.6, pp.328–337, June 2022.23X. Gonzalvo, S. Tazari, C. an Chan, M. Becker, A. Gutkin, and H. Silen, “Recent advances in google real-time HMM- driven unit selection syn-thesizer,” Proc. Interspeech, pp.2238–2242, Sept. 2016.24H. Kawahara, I. Masuda-Katsuse, and A. de Cheveigné, “Restructuring speech representations using a pitch- adaptive time-frequency smooth-ing and an instantaneous- frequency-based F0 extraction: Possible role of a repetitive structure in sounds,” Speech Commun., vol.27, no.3–4, pp.187–207, April 1999.25M. Morise, F. Yokomori, and K. Ozawa, “WORLD: A vocoder-based high-quality speech synthesis system for real- time applications,” IEICE trans. Inf. Syst., vol.E99-D, no.7, pp.1877–1884, July 2016.26A. Tamamori, T. Hayashi, K. Kobayashi, K. Takeda, and T. Toda, “Speaker-dependent WaveNet vocoder,” Proc. Interspeech, pp.1118–1122, Aug. 2017.27A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. van den Driessche, E. Lock- hart, L. C. Cobo, F. Stimberg, N. Casagrande, D. Grewe, S. Noury, S. Dieleman, E. Elsen, N. Kalchbrenner, H. Zen, A. Graves, H. King, T. Walters, D. Belov, and D. Hassabis, “Parallel WaveNet: Fast high-fidelity speech synthesis,” Proc. ICML, pp.3915–3923, July 2018.28K. Tachibana, T. Toda, Y. Shiga, and H. Kawai, “An investigation of noise shaping with perceptual weighting for WaveNet-based speech generation,” Proc. ICASSP, pp.5664–5668, April 2018.654   情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術

元のページ  ../index.html#60

このブックを見る