学習することができなかった。このため、GMM-HMM音響モデルに取って代わることはなかったが、深層学習を用いたDNN音響モデルの登場によりこれが覆された。図4にDNN音響モデルの一例を示す。図4のDNNは7層の隠れ層を有しており、特徴量ベクトル を入力すると隠れ層を順に伝搬していき、最終的にHMM状態確率ベクトル を出力する。このような音響モデルをGMM-HMM音響モデルと対比して、DNN-HMM音響モデルと呼ぶことがある。深層学習以前の隠れ層数は多くとも3層程度が限度であったが、DNNでは多数の隠れ層を有することが可能となった。また、各隠れ層は複数のノードから構成されている。深層学習以前は100程度が限度であったが、DNNでは1,000〜2,000のノードを有している。このような多くの隠れ層、ノードを有するDNN-HMM音響モデルを用いることで、音声認識の性能が飛躍的に改善された。図4に示したDNN-HMM音響モデルは単純な構造となっているが、他の様々な構造を有するネットワークを用いることで音声認識性能を更に改善することができる。図4のDNN-HMM音響モデルは、図5 (a)のFully Connected Neural Network(FCNN)を積み重ねることで構成されている。FCNNは層内のノードと前後の層のノードが全て結合された全結合ネットワークとなっており、入力された特徴量が全てのノードに伝搬する。一方、図5 (b)のConvolutional Neural Network(CNN)[36]–[38]は小規模なカーネルを入力特徴量に畳み込んで情報伝達を行っており、ノード間を部分的に結合する部分結合ネットワークを構成する。すなわち、CNNは入力された特徴量から局所的な情報を抽出して伝搬することができる。FCNNでは入力特徴量に含まれる全ての雑音の情報が伝でん播ぱされるのに対し、CNNでは局所的な雑音の情報のみが伝搬されるため、その後のネットワークにおける雑音の影響を軽減することができる。そのため、CNNは雑音に対して頑健であるとされている。また、図5 (c)のRecurrent Neural Network(RNN)[39]–[41]は、隠れ層の出力を入力にフィードバックすることで、過去の情報を考慮することができ、音声信号のような時系列信号の解析、モデル化に有用である。RNNの発展形として、Long-Short Term Memory(LSTM)[42]がある。LSTMは記憶セル(Memory cell)とゲート機構(Gating mechanism)という機能を有している。記憶セルには過去の情報が格納されており、その状態をゲート機構により制御する。ゲートには入力、忘却、出力の3種類があり、それぞれ記憶セルの更新、忘却、活用に相当する。また、過去から未来への順方向のネットワークだけでなく、未来から過去への逆方向のネットワークも取り込んだBi-directional RNN(LSTM)[43]も存在する。さらにはCNNとLSTMを統合したConvolutional LSTM [44]や、CNN、LSTM、FCNNを積み重ねた複合的なネットワーク[45]も提案されており、DNN-HMM音響モデルの構造は極めて多岐に渡る。DNN-HMM音響モデルの学習には、学習用のラベルデータとして入力特徴量ベクトル系列 ,⋯, ,⋯, に1対1で対応するHMM状態系列が必要であり、このHMM状態系列は別途学習したGMM-HMM音響モデルを用いて、強制アライメント(Forced alignment)[46]という手法により得ることができる。学習時の損失関数には主にCross entropyが用いられ、誤差逆伝搬法(Back propagation)を用いて損失関数を最小化するようにDNNの各パラメータを最適化する[9]–[11]。より発展的にはState-level Minimum Bayes Risk(sMBR)[47]、Lattice Free-Maximum Mutual Information(LF-MMI)[48]等の様々な基準での方法が確立されているが、紙面の関係から詳細については文献を参照されたい。(a)Fully Connected Neural Network (FCNN)(b)Convolutional Neural Network (CNN)(c)Recurrent Neural Network (RNN)図5 様々なニューラルネットワーク構造312-2-4 音声認識技術
元のページ ../index.html#37