音素 が発音された際の時間的な変化、すなわち音の立ち上がり、立ち下がり(過渡状態)、安定(定常)状態等を表現することが多い。各状態における出力確率 を得るための確率分布には正規分布を適用することが多く、特に複数の正規分布を重み付け加算することにより表現された混合正規分布(GMM: Gaussian Mixture Model)[2][3]が用いられる。このように、HMMによる状態遷移構造を有し、GMMによる出力確率分布を有する音響モデルをGMM-HMM音響モデルと呼ぶ。GMM-HMM音響モデルの学習にはBaum-Welchアルゴリズム[23][24]、音素(HMM状態)列の探索にはViterbiアルゴリズム[25][26]が用いられており、各々の詳細については文献を参照されたい。また、音素の音響的な特徴は前後に連結される音素によってその特徴が大きく異なる場合がある(調音結合[19][22]の影響)。この特徴を詳細にモデル化するため、前後の音素の影響を考慮したTri-phoneモデル[19][22]が広く利用されている。なお、前後の音素の影響を考慮しない場合はMono-phoneモデルと呼ばれる。Tri-phoneモデルを効率的に学習するため、Tree-based clustering、State tying等の様々な手法[27]–[29]が用いられており、これらについても詳細は文献を参照されたい。2.2N-gramに基づく言語モデル言語モデルは、発音辞書により得られた単語 から最尤の単語列 を得るモデルである。すなわち、言語モデルは与えられた任意の記号列に対して、その言語らしさを規定するモデルとなる。音声認識においては音響モデル、発音辞書により得られる出力単語候補の言語的な妥当性を考慮することで、より高い精度での単語列 (音声認識結果)の出力を可能とする。ある単語列 が生成される確率は、 |⋯|,⋯, |,⋯, (3)により得られるが、様々な長さの単語列、単語の組合せに対して条件付き確率|,⋯, を求めるのは事実上不可能である。そのため、各単語の出力確率は1 前の単語にのみ依存するという1 重マルコフ性を仮定することでモデル構造を簡略化する。そして、単語の出力確率を単語列に渡って累積することにより、言語確率を計算する。このようなモデルを N-gram言語モデル[4][5]と呼ぶ。 の値は3〜4を用いることが多く、 3 の場合は特にTri-gramと呼ぶ*1。N-gram言語モデルは大量のテキストデータに出現する 単語連鎖の頻度を用いて最尤推定することにより学習される。しかし、学習の際には低頻度の 単語連鎖(スパースネス)問題について考慮する必要がある。これに対処するための手法として、Back-off smoothing [30][31]という手法が広く用いられている。2.3WFSTに基づくモデル一体化WFST [6][7]は有限状態オートマトンの一種であり、有限状態オートマトンは、あるアルゴリズムやモデルを状態遷移機械として表現して制御するために用いられる。有限状態オートマトンの最も単純なモデルは図3 (a)に示すような、ある入力記号列を受理するか否かを判定する有限状態受理機械(FSA: Finite State Acceptor)である。例示したFSAは、{青い家}や{赤い車}という入力単語列及び{赤い家 青い車}という繰り返しを含むような入力単語列を受理する。図中、空語(empty word)ε*2を伴う状態遷移はε遷移と呼ばれ、入力無しでの状態遷移を示す。また、FSAの拡張モデルとして、図3 (b)に示す有限状態トランスデューサー(FST: Finite State Transducer)があり、FSAの様に記号列を受理するだけでなく、入力記号列を別の記号列に変換する機能を有する。図3 (b)は発音辞書をFSTとして表現したモデルあり、{a k a}とい013245a:⻘o:εa:赤k:εa:εi:家e:εε:ε(b)Finite State Transducer (FST)(a)Finite State Acceptor (FSA)012⻘い赤いε車家鳥εε図3 FSAとFSTの例*11 の場合はUni-gram、2 の場合はBi-gramと呼ぶ。*2長さ0の特殊な記号であり、空文字列もしくはヌル文字列とも言う。空集合 を意味するものではない。292-2-4 音声認識技術
元のページ ../index.html#35