はじめに入力テキストを機械が自然な音声で読み上げるテキスト音声合成(Text-to-speech synthesis: TTS)は、音声コミュニケーションにおいて重要な技術の1つである。近年では、自動音声ガイダンス、駅等での自動アナウンス、スマートスピーカ、カーナビ、対話ロボット、等の日常の様々な場面で使われるようになり、TTSは身近な技術となっている。NICTにおいても、言語の壁を超えた音声コミュニケーションの実現に向けて、本特集でも紹介されている音声認識技術と機械翻訳技術を音声合成技術と組み合わせることにより、多言語音声翻訳を実現し、VoiceTra®等において幅広く利用されている。そして現在は、入力音声を即座に別言語の音声へと変換する同時通訳システムの研究開発に取り組んでいる。同時通訳システムにおいても、高品質かつ高速な音声合成技術は重要な研究課題の1つである。2012 年頃までは隠れマルコフモデル(Hidden Mar-kov model: HMM)に基づく統計的音声合成[1]が主流であり、NICTにおいてもHMMを用いた多言語音声合成技術の開発に取り組んできた[2]。この方式で合成された音声は、話している内容は問題なく聞き取ることができるが、人間の自然音声と比べると明らかに自然性に乏しいもの(いわゆるロボットのような声)であり、大きな課題となっていた。その中で、2012年頃から様々な分野において飛躍的な技術革新を持たらしたのが深層ニューラルネットワーク(Deep neural network: DNN)であり、現在のいわゆるAIブームが始まった。音声認識や機械翻訳と同様、ニューラルネットを用いた方式は2013年に Googleによって音声合成にも導入され、HMMに基づく方式を上回る精度を実現した[3][4]。NICTにおいても、ニューラルネットを用いた方式が検討され[5]、2022年3月まで VoiceTra®にも搭載されていた。しかし当時は、ニューラルネットが導入されたのは図1(a) における音響モデルのみであり、最終的な音声波形生成部は既存の信号処理に基づく方式を採用し1テキストから自然な音声波形を合成するテキスト音声合成(Text-to-speech synthesis: TTS)技術は、ニューラルネットワークを用いた方式の進展により、現在では CPUのみを用いて高品質かつリアルタイムな合成が可能となっている。NICTにおいても、音声翻訳アプリVoiceTra®において、最先端の技術を用いた多言語ニューラル音声合成を導入している。本稿では、入力テキストから音響特徴量を推定するニューラルTTS音響モデル、音響特徴量から音声波形を生成するニューラル音声波形生成モデル、また、音響特徴量を介さず1つのニューラルネットワークを用いてテキストから音声波形を直接生成可能であるEnd-to-endモデル及びNICTにおける取組について紹介する。Text-to-speech synthesis (TTS) technology, which synthesizes natural speech waveforms from input texts, can now realize high-quality synthesis in real-time only using CPUs, thanks to recent advances in neural network-based methods. NICT has also introduced multilingual neural speech synthesis using state-of-the-art technologies in VoiceTra®, a speech translation application for smartphones. This paper briefly introduces neural TTS acoustic models which predict acoustic features from input texts, neural speech waveform generative models which synthesize speech waveforms from acoustic features, end-to-end TTS models which directly synthesize speech wave- forms from input texts without intermediate acoustic features, and related neural TTS models that NICT has been working on.2-2-6 ニューラル音声合成技術2-2-6Neural Speech Synthesis Technology岡本 拓磨OKAMOTO Takuma472 多言語コミュニケーション技術
元のページ ../index.html#53