3.1.2深層学習に基づく言語モデル言語モデルにおいても深層学習が用いられる。RNNを用いて言語モデルを学習することにより、N-gram言語モデルよりも長いコンテキストを考慮した処理が可能となる[40][41]。しかし、RNN言語モデルをWFSTの枠組みで直接導入することは実装上困難であるため、WFSTの出力として得られた認識結果をリスコアリングすることにより音声認識の性能を改善することができる。自然言語処理の研究分野では、極めて膨大なパラメータ数を持つBi-directional Encoder Representa-tions from Transformers(BERT)[49]や、Generative Pre-trained Transformer-2(GPT-2)[50]という巨大ニューラル言語モデルの研究が盛んに行われている。RNN言語モデルと同様に、BERTやGPT-2も直接音声認識の枠組みで利用することは困難であるが、BERTによる音声認識誤りの訂正、GPT-2を特定の音声認識ドメイン(タスク)にファインチューニングした後に大量の文生成をしてN-gram言語モデルの学習に利用する等、間接的な利用の検討が進められている。特に後者はデータ拡張(Data augmentation)[51][52]と呼ばれており、学習データを何らかの方法(データ生成、雑音付加、一部欠損等)を用いて大幅に拡張し、モデル学習に利用する方法である。深層学習では大量の学習データが必要となるため、このような技術も同時に発展している。3.2End-to-End音声認識ハイブリッド型音声認識は、統計的音声認識の一部機能を深層学習モデルに置き換えることで実現されている。これに対して、式(1)の音声認識モデル| を1つのニューラルネットワークで記述し、音声認識の問題を深層学習のみで解決しようという試みが注目を集めている。この試みはEnd-to-End(E2E)音声認識と呼ばれる[16]–[20][53][54]。統計的音声認識及びハイブリッド音声認識では性能改善を得るために、各構成モジュールを個別に改善し、個別に最適化することが行われてきた。これに対してE2E音声認識は構成モジュールの改善は個別に行うものの、システムとしては1つのネットワークで記述されているため、システム全体の最適化を容易に行うことができる。またシステム構成としてもシンプルになる。E2E音声認識における最大の問題は、入力特徴量ベクトル系列 ,⋯, ,⋯, と,出力単語列,⋯,,⋯, の系列長が一致しないことである(基本的に入力に比べて出力の系列長が短い)。この問題に対処するため、入出力の系列長を調整するようなネットワーク構造が必要となる。E2E音声認識では多くの場合、図6に示すようなエンコーダ・デコーダ(符号器・復号器)ネットワーク[55]にて構成される。図6においてエンコーダは、入力された特徴量ベクトル系列 を音声認識のための適切な中間表現系列 ,⋯, ,⋯, に変換する役割を持ち、Bi-directional LSTMやTransformer [56]等のネットワーク構造を有することが多い。デコーダはエンコーダ出力である中間表現系列 を利用して、入出力の系列長を調整して出力する役割を持ち、Connectionist Temporal Classification(CTC)[57]及び注意機構(Attention mechanism)[58]等の手法が主に用いられる。E2E音声認識では音響モデルと言語モデルの区別が無く、利用できる学習データは基本的に音声データとその書き起こしテキストのみとなる。しかし、このような学習データは限られた量しか存在しないため、ある特定のドメインに適合することが困難である。このため統計的・ハイブリッド型音声認識で用いられるような従来の言語モデルを別途用意し、外部の知識を取り入れる方法が用いられている。外部言語モデルを導入する方法としてShallow fusion [59]があり、デコーダから得られる出力単語列の分布と、言語モデルの出力単語列の分布を重み付け平均することで、最終的なこんにちは。いい天気ですね。音声特徴量ベクトル系列認識結果エンコーダ-Bi-directional LSTM-Transformerデコーダ-CTC-Attention-Transformerこんにちは。いい天気ですね。認識単語・サプワード列外部言語モデル-LSTM-TransformerEnd-to-End 音声認識図6 エンコーダ・デコーダネットワークによるE2E音声認識32 情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術
元のページ ../index.html#38