![]() |
![]() |
2013年12月5・6日の2日間、ドイツのハイデルベルグにて第10回音声翻訳国際ワークショップ(IWSLT: International Workshop on Spoken Language Translation)が開催され、NICTは、7ヶ国10研究機関(8研究チーム)が参加した英語の音声認識システム評価において、昨年に引き続き2年連続で最も認識率の優れたシステムであるとの評価を得ました。 評価は、各研究機関が開発した音声認識システムにより、英語の講演ビデオから音声を認識し、テキスト化された認識結果について単語誤り率を比較することで行われます。多様な話者による長文の英語講演の音声認識は困難な課題であり、特に今年度の評価セット*1(下表「評価セットC」)は、(1)英語を母国語としない講演者のものが多い、(2)昨年まで既知であった発話区間が未知となり、発話区間の自動検出を含めた問題設定となった、という特徴があり、昨年度より難度の高い音声認識技術が要求されました。 NICTは、他研究機関よりも先行して話者適応技術を用いたディープニューラルネットワーク(DNN)*2 に基づく音響モデルを研究開発し、(1)の英語非母語話者の問題に対する認識精度を大幅に改善することで首位を獲得することができました。また、2011年および2012年の評価セットを用いた音声認識についても首位となりました。
|
||||||||||||||||||||||||||||||||||||||||
![]() |
![]() |