広く研究開発を実施している。本稿では上記に示した音声認識技術の研究開発の発展を俯瞰的に述べ、技術革新の要因となった幾つかの主要技術について解説する。また、このような世界的な研究開発の状況下における、NICTの取組についても紹介する。統計的音声認識まず、深層学習登場以前に主流であった統計的音声認識の概要について述べる。図1は統計的音声認識の概要図であり、主に特徴抽出器、デコーダ(復号器)、WFSTによる音声認識モデル(音響モデル、発音辞書、言語モデルの混合一体化モデル)から構成される。図1においてまず、特徴抽出器は入力された1次元の音声信号系列を分析し、対数メル周波数スペクトルやメル周波数ケプストラム[22]と呼ばれる数十次元の特徴量ベクトル系列 ,⋯, ,⋯, を抽出する( は総入力フレーム数)。特徴量の抽出は通常10ms程度の短時間フレームごとに実施する。特徴量ベクトル系列 が与えられると、デコーダは式(1)に基づき、最さい尤ゆうとなる単語列,⋯,,⋯, を探索して出力する( は総出力単語数)。これにより得られた単語列 が音声認識結果となる[8]。 arg max| (1)式(1)において| は音声認識モデルに相当し、統計的音声認識では機械学習技術により大量の音声データを用いて精密な| のパラメータ群を推定することが重要となる。式(1)の右辺は、音素 (音韻を弁別する上での最小単位)の系列である音素列 という中間表現を導入し、さらにベイズの定理等を用いることにより次式の様に近似的に表現することができる。 arg max|| arg maxmax|| (2)式(2)のように音声認識モデル| は3つの要素に分解することができ、|、|、 はそれぞれ音響モデル、発音辞書、言語モデルと呼ばれる。ここで発音辞書は、音素列 から単語 を生成する確率モデルであるが一般的には確率モデルを用いず、ある一定の規則に沿った生成が行われる。以降では音響モデル、言語モデルの概要と、WFSTによるモデル一体化について述べる。2.1GMM-HMMに基づく音響モデル音響モデルは特徴量ベクトル系列 から最尤の音素列 を得るモデルである。統計的音声認識における音響モデルとして、主にHMMという有限の状態を有する非決定性の状態遷移モデルが用いられる[3]。特に図2に示すような3〜5の状態を有するLeft-to-Right型のHMMが用いられることが多く、音素ごとにHMMを学習して連結することにより、最尤の音素列 を出力する。ここで、音素における状態とは、ある2こんにちは。いい天気ですね。音声特徴量ベクトル系列認識単語列音響モデル言語モデル認識結果特徴抽出発音辞書入力音声単語→ 単語列(文)音素列→ 単語特徴量系列→ 音素列こんにちは。いい天気ですね。k o N n ichiw aこんにちはこんにちは。いい天気…重み付き有限状態トランスデューサー(WFST)合成デコーダ統計的音声認識12340初期状態最終状態図1 統計的音声認識の概要図23状態Left-to-Right HMM。 は状態遷移確率、 は状態出力確率を示す。28 情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術
元のページ ../index.html#34