う入力音素列を受理して{赤}という単語を出力する。また、FSTの状態遷移の際に重み付けを行うことで、記号変換の起こりやすさ、起こりづらさを制御することが可能となる。このモデルをWFSTと呼ぶ。統計的音声認識におけるWFSTは音響モデル、発音辞書、言語モデルを統合して、グラフ構造を持つ1つの巨大なネットワークとして表現されており、入力された特徴量ベクトル系列 を直接最尤の単語列 に変換するモデルとなっている。また、WFSTは3つのモデルを単純に合成するのではなく、構造最適化を行うことにより、不要な経路や重複する経路を削除して軽量化を行っている。このような合成ネットワークモデルを用いることにより、デコーダの構造や探索アルゴリズムが簡略化されるという利点がある。WFSTの合成、最適化アルゴリズム[6][32]や、デコーダにおける探索[7][33]の詳細については文献を参照されたい。深層学習に基づく音声認識次に、深層学習[9]–[11]に基づく音声認識について述べる。深層学習は機械学習技術の一種であり、生物の神経回路網を模した数理モデルであるニューラルネットワークを学習する方法及びその周辺技術の総称である。深層学習以前のニューラルネットワーク研究は1957年頃及び1986年頃に活発化したが、1.十分な演算能力を持つ計算機が確保できない2.効率的な学習アルゴリズムが確立されていない3.大量の学習データが利用できないという理由により、大規模なニューラルネットワークを学習することができず、十分な性能を示すことができなかった。その後2006年頃に深層学習が登場し、1.汎用画像処理用演算プロセッサ(GPGPU: General Purpose Graphical Processing Unit)を用いた超高速並列演算と演算ライブラリの整備2.事前学習(Pre-training)や、確率的勾配降下法(SGD: Stochastic Gradient Descent)等の効率的な学習アルゴリズムの確立3.大量の学習データの利用という技術革新により、多層構造をもつ大規模なニューラルネットワーク(DNN: Deep Neural Network)を学習することが可能となった。深層学習は、画像認識、音声認識等の様々な分野において従来技術をはるかにしのぐ性能を示し、瞬く間に普及した。3.1ハイブリッド型音声認識深層学習の音声認識への導入は、統計的音声認識の一部を深層学習により得られたモデルに置き換えることから始まった。2にて述べたとおり、音声認識の背景には音響信号処理、機械学習等に基づく様々な技術があり、ある日突然それら全ての技術が深層学習に換装された訳ではない。1つひとつの構成モジュールが見直されて、継続的な研究開発の過程で少しずつ深層学習によるモジュールに換装された。このように統計的音声認識と深層学習の混合による音声認識をハイブリッド型音声認識と呼ぶ。ハイブリッド型音声認識で主に換装されたモジュールは音響モデルと言語モデルであり、以降それぞれの概要について述べる。3.1.1深層学習に基づく音響モデル従来のGMM-HMM音響モデルは2.1にて述べたように、特徴量ベクトル系列 から最尤の音素列 を得る。より正確には、ある時刻 の特徴量ベクトル が、どの音素 のどのHMM状態, に属するかをViterbiアルゴリズムにより求める。深層学習による音響モデルでは、特徴量ベクトル を入力した際に、HMM状態, に属する確率を要素にもつベクトル を直接出力するようなDNNを学習して利用する[15]。ここで、ハイブリッド型音声認識のDNN音響モデルでは入力特徴量ベクトル系列 ,⋯, ,⋯, とHMM状態確率ベクトル系列 ,⋯, ,⋯, の系列長が一致している必要がある。なお、このような枠組みは1990年代にすでに検討されていたが[34][35]、前述のとおり当時は高精度なニューラルネットワークを3出力層入力層隠れ層特徴量ベクトルHMM状態確率ベクトル図4 DNN音響モデルの例30 情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術
元のページ ../index.html#36