出力単語列を得る。以下、E2E音声認識の代表的なデコーダであるCTCとAttentionの概要について述べる。また、エンコーダ・デコーダネットワークではない、新たな方法であるRNN-Transducer [60]についても簡潔に述べる。3.2.1CTCデコーダCTCデコーダ [61][62]では通常の出力シンボルに加えて「シンボルラベル無し」を意味するブランクシンボル{-}を導入し、入力の一部をブランクシンボルに対応させることで、入力系列に比較して短い系列長の出力系列を出力する。系列長10 の入力系列が与えられた場合、出力系列{s e e d}を得るための系列長10 の出力系列パターンは、 •{s s e e e - e d - -} •{s e - - - e e - d -} •{- - s e e - e e d d}等が考えられる。ここで{s e e d}は{e}が連続するので、それぞれを区別するためにブランクシンボル{-}を利用する。上記のいずれかのパターンから連続するシンボルをマージし、ブランクシンボル{-}を削除することで出力系列{s e e d}を得ることができる。この様子を3状態Left-to-Right HMM によるGMM-HMM音響モデルのFST表現と比較すると、図7の様になる。図7 (a)のLeft-to-Right HMMでは3つのHMM状態 、 、 を遷移することでシンボル{s}を出力することが示されており、図7 (b)のCTCではブランクシンボル{-}が繰り返される中で、少なくとも1回状態 に遷移することでシンボル{s}を出力することが示されている。DNN-HMM音響モデルの学習では事前に強制アライメントで得たHMM状態系列をラベルとして学習を行うが、CTCデコーダでは事前にこのようなアライメント情報を用意するのではなく、アライメント情報を探索しながら学習を行う必要がある。実際にはBi-directional LSTMエンコーダの出力系列 と、HMM学習に用いるBaum-Welchアルゴリズムに類似したForward-Backwardアルゴリズムを用いて学習を行う[19][62]。3.2.2AttentionデコーダAttentionデコーダ[63][64]は一般に順方向のLSTMで構成されており、エンコーダ出力系列 と、過去に出力した単語列(接頭辞),⋯, を用いて次の出力単語 を予測する。図8にAttentionデコーダの概要を示す。図8において、Attentionデコーダはエンコーダ出力系列 をそのまま用いるのではなく、注意機構より得られた情報 に変換しており、この情報は文脈ベク01-::s:123:s::::::40:2(a)Left-to-Right HMM(b)CTCLSTM
元のページ ../index.html#39