HTML5 Webook
39/194

出力単語列を得る。以下、E2E音声認識の代表的なデコーダであるCTCとAttentionの概要について述べる。また、エンコーダ・デコーダネットワークではない、新たな方法であるRNN-Transducer [60]についても簡潔に述べる。3.2.1CTCデコーダCTCデコーダ [61][62]では通常の出力シンボルに加えて「シンボルラベル無し」を意味するブランクシンボル｛-｝を導入し、入力の一部をブランクシンボルに対応させることで、入力系列に比較して短い系列長の出力系列を出力する。系列長10 の入力系列が与えられた場合、出力系列｛s e e d｝を得るための系列長10 の出力系列パターンは、 •｛s s e e e - e d - -｝ •｛s e - - - e e - d -｝ •｛- - s e e - e e d d｝等が考えられる。ここで｛s e e d｝は｛e｝が連続するので、それぞれを区別するためにブランクシンボル｛-｝を利用する。上記のいずれかのパターンから連続するシンボルをマージし、ブランクシンボル｛-｝を削除することで出力系列｛s e e d｝を得ることができる。この様子を3状態Left-to-Right HMM によるGMM-HMM音響モデルのFST表現と比較すると、図7の様になる。図7 （a）のLeft-to-Right HMMでは3つのHMM状態、、を遷移することでシンボル｛s｝を出力することが示されており、図7 （b）のCTCではブランクシンボル｛-｝が繰り返される中で、少なくとも1回状態に遷移することでシンボル｛s｝を出力することが示されている。DNN-HMM音響モデルの学習では事前に強制アライメントで得たHMM状態系列をラベルとして学習を行うが、CTCデコーダでは事前にこのようなアライメント情報を用意するのではなく、アライメント情報を探索しながら学習を行う必要がある。実際にはBi-directional LSTMエンコーダの出力系列と、HMM学習に用いるBaum-Welchアルゴリズムに類似したForward-Backwardアルゴリズムを用いて学習を行う[19][62]。3.2.2AttentionデコーダAttentionデコーダ[63][64]は一般に順方向のLSTMで構成されており、エンコーダ出力系列と、過去に出力した単語列（接頭辞）,⋯, を用いて次の出力単語を予測する。図8にAttentionデコーダの概要を示す。図8において、Attentionデコーダはエンコーダ出力系列をそのまま用いるのではなく、注意機構より得られた情報に変換しており、この情報は文脈ベク01-::s:123:s::::::40:2(a)Left-to-Right HMM(b)CTCLSTMLSTMLSTMLSTM ,Attentionデコーダエンコーダ特徴量系列Attention確率計算コンテキストベクトル計算図8　Attentionデコーダの概要。、はそれぞれ文頭、文末のシンボルを示す。図7　各モデルのFST表現332-2-4　音声認識技術

元のページ ../index.html#39

このブックを見る

HTML5 Webook 39/194

HTML5 Webook
39/194