HTML5 Webook
73/344

653創つくる●データ利活用基盤分野まず、厳密に公平な条件として、人間もASRと同様に音声を1回だけ再生して書き起こした場合で比較した(図2)。速さではASR(1.1 RTF)は人間(平均2.3 RFT)の2倍以上の性能であり、正確さにおいてもASR(2.1%)は人間の平均値(11.5%)を凌ぐ結果となり、速さと正確さの両面でASRの性能が人間の文字起こし能力を超えたことが示された。次に、人間に複数回の音声再生を許した場合(図3)、速さではASRが人間(平均4.4 RFT)を大きく上回ったものの、正確さでは最終的に人間(0.3%)がわずかにASRを上回った。通常の文字起こしと同様に時間をかけて何度も聞き直したなら、正確さではなお人間が優ることが示された。ASRの性能が人間に至らない部分を分析した結果、「送信者にユーザーが含まれている場合オンにします」という音声を「〜本にします」と誤認識するなど、文法的に正しく音韻的にも類似しているが意味的に整合しない例が多く含まれることがわかった。ASRにおいて今後解決すべき課題の一つである。3. 話者認識技術の研究当研究室では、多数の話者が参加するビジネス会議の議事録の作成や同時通訳などへの応用を目指して、話者認識技術の研究に取り組んでいる。話者認識技術は、音声から発声者を識別する技術である。話者認識により、話者情報を含む会議記録を作成することができ、また、音声認識システムを話者に適応させることにより、音声認識の精度を向上させることができる。特に、短い音声で話者を判定及び追跡する技術の開発は、システムの利便性を向上させることが期待できる。そこで、本年度は、短い発話の話者認識精度を改善するため、有効な話者特徴量を抽出するとともに、多様なモデル構造を比較評価し、高精度なGreedy Fusion手法を開発した。最先端の話者認識技術には、話者特徴抽出部と話者識別部が含まれる。話者特徴抽出では、i-vector と呼ばれるフレームワークが広く利用されてきたが、近年、x-vectorと呼ばれる深層話者埋め込み(Deep speaker embedding)技術が新たな特徴抽出器として急速に広まり、話者認識の精度が大幅に改善した。話者識別では、確率的線形判別分析(Probabilistic Linear Discriminant Analysis:PLDA)というモデルにより類似度を計算し、識別を行うが、高い識別精度を得るためには、十分に長い継続長の発話データが必要であり、短い発話では精度が得られないことが大きな課題であった。当研究室では、短い発話の識別精度の課題に対して、学習データと評価データの発話長のミスマッチを軽減するため、学習コーパスから学習サンプルを抽出する手法を改善した。また、短い発話に有効な話者特徴量を抽出し、識別するため、多様な特徴量やモデル構造を比較評価し、最新のニューラルネットワークベースのPLDAなどの手法を導入することで、高性能な話者認識システムを構築した。さらに、図4に示すようなGreedy Fusion手法を開発し、短い発話に有効なサブシステムが自動的に選択されるように工夫した結果、計算量が低減するとともに、話者識別精度が大幅に改善した。当該システムをもって、国際会議「INTER-SPEECH2020」主催の短い発話に対する話者認識コンテストにおける、発声内容によらないテキスト非依存型(text−independent)話者照合という難易度の高いタスクに挑戦したところ、世界各国から参加した34のチームの中で準優勝を獲得した(図5、6)。短い発話PLPMFCCFBANK話者情報抽出E-TDNNCNN-TDNNResNet…PLDACosineN-PLDAGreedy Fusion判別結果…識別図4 短い発話に対する話者識別技術NICTチームMinDCF図6 コンテストの参加者の結果比較(MinDCFが小さい低いほど高精度)4図5 国際大会INTERSPEECH2020の話者認識コンテストで準優勝を獲得3.6 先進的音声翻訳研究開発推進センター

元のページ  ../index.html#73

このブックを見る