HTML5 Webook
40/194

トル(Context vector)と呼ばれる。注意機構は、 番目の単語 を予測するにあたり、エンコーダ出力系列 の内、どの時刻の情報 に注目すべきかをAttention確率, に基づいて決定する手法であり、Query( )、Key( )、Value( )と定義される3つの入力を受けて、文脈ベクトル を出力する( と は同じ情報源から得られ、これらの対をMemoryと呼ぶ)。文脈ベクトル は、 ∑,∙  (4)により与えられ、上式の が に相当し、, をAttention確率と呼ぶ。Attention確率, の計算方法には幾つかの方法があるが、最も一般的なのは、デコーダLSTMの入力 ( に相当)と、エンコーダ出力 ( に相当)との内積を求める手法であり、次式により与えられる。 exp ∑exp , (5)AttentionデコーダはCTCデコーダと異なり学習時に特別な方法を必要としない。また、CTCデコーダとAttentionデコーダを統合したハイブリッド方式[65]も提案されており、ぞれぞれのデコーダを単体で利用するよりも高い音声認識性能が得られることが報告されている。注意機構を用いたモデルの発展形として、自然言語処理や機械翻訳の分野で利用されているTransformerがある[56]。Transformerはエンコーダ、デコーダともに注意機構が用いられており、特に入力を幾つかのブロックに分割するMulti-head attentionと、 、 、 を同一の情報源から得るSelf-attentionを有することが特徴的である。また、Transformerの一部をCNNに置き換えたConformer [66]も提案されており、Transformerに比べて性能改善が得られることが報告されている。3.2.3RNN-TransducerモデルRNN-Transducer [60]は、CTCデコーダと同様に、ブランクシンボルを用いて拡張された出力シンボルの推定を、接頭辞の情報を用いて実施するモデルとなっている。また、入力と出力が同期する設計となっており、処理遅延の少ないストリーミング音声認識向けの手法である。図9はRNN-Transducerの概要図を示しており、特徴量ベクトル系列 から中間表現 を出力するエンコーダ、接頭辞,⋯, から対応する言語情報ベクトル を予測して出力するPrediction network、それぞれの結果を統合するJoint networkで構成される。Joint networkは、入力として 通りの値を持つ中間表現ベクトル と、 通りの値を持つ言語情報ベクトル を 通りの組み合わせで受け取り、 と それぞれの場合において次に出力すべき単語の確率分布 |, を出力する。RNN-Transducerでは一般にエンコーダ、Prediction networkともに順方向のLSTMにより構成され、Joint networkはFCNNにより構成される。最新の研究ではTransformer、Conformer等の注意機構を用いた手法も提案されている[67]。なお、RNN-Transducerの学習はCTCデコーダと同様の方法にて行われる。NICTにおける取組上記に述べた音声認識の技術発展において、NICTにおいても第一線で研究開発を推進し、多くの研究成果を挙げて技術発展に貢献してきた。以下、NICTにおける音声認識の研究開発及びその成果の展開について述べる。4.1多言語音声翻訳技術の展開NICTでは多言語音声翻訳技術の社会実装を至上命題として研究開発を推進している。その1つの成果としてモバイル端末における多言語音声翻訳アプリVoiceTra® [21]があり、音声翻訳技術の社会実装を行うための実証実験の名目で無償公開している。音声翻訳の要素技術は音声認識、機械翻訳、音声合成であり、ユーザーの音声を受け取る音声認識は音声翻訳の入り口にあたる。そのため音声認識は極めて重要な役割を担っており、特に注力して研究開発を推進している。VoiceTra®とその音声翻訳エンジンは、総務省主導で遂行されたグローバルコミュニケーション計画(GCP)[68]の目標である「音声翻訳技術の社会実装」において、中核的な役割を果たした。現在は、「多言語同4エンコーダPrediction network,⋯, ,⋯,Joint network,Softmax ,図9 RNN-Transducerの概要34   情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術

元のページ  ../index.html#40

このブックを見る