HTML5 Webook
29/194

まえがき自動音声認識(ASR: Automatic Speech Recogni-tion)は音声を文字へ変換する技術であり、一般に速く正確であることが求められる。ASRの性能は、他章で述べるように、音声言語コーパスの量と質に大きく依存する。用途や環境により性能に対する要求水準が異なるため、絶対的な達成目標を決めることはできないが、『人の代わりが務まるかどうか』は一つの目安となる。どの程度役立つかも直感的に理解しやすい。そこで、ASRの現時点での到達点を正確に知り、更なる性能向上のためにコーパス構築に何が必要かを探るため、人の能力との精密な比較を試みた。同様の比較は従来から試みられ[1]–[3]、最近では人と同等の性能に達したとの報告[2][3]もあるが、未解明のポイントが少なくとも2つあった。まず、言語への依存性が不明であった。従来の対象は英語音声であり、英語以外の言語、特に、英語とは書字システムが大きく異なる日本語のような言語でも同様であるかどうかは未解明であった。次に、「人の能力」の定義が曖昧であり、機械と人との公平な比較になっていない可能性があった。従来報告では、性能を書き起こしの正確さのみで評価したが、速さも同様に重要である。機械が音声を1回だけ「聞いて」素早く文字へ起こすのに対し、人は繰り返し聞いて正解へ近づく。機械と同じ1回再生のスピード勝負で人がどこまで競えるかは未解明であった。以上を考慮した「厳正な競争」の結果を報告する。なお、本稿は既発表の成果をもとに本研究報告読者向けに要点を絞ってまとめたものである。方法、結果等の詳細は別稿[4]を参照されたい。方法2.1音声素材書き起こし対象となる音声には、NICTの多言語音声認識評価データセット(SPREDS2: SPeech Recogni-tion Evaluation Data Set 2)[5]の日本語セットを用いた。これは、全1,000発話から成る読み上げ音声のデータセットである。話者は、特に発話訓練を受けていない日本語を母語とする15歳から60歳の成人男女各10人(合計20人)であった。複数の話者間で原稿の重複があったため、ユニークなセットに原稿を絞った。書き起こし者の原稿への親密度を統制するためである。12本稿では、機械による自動音声認識(ASR)性能の現状を人の音声書き起こし能力との比較において示す。ASR評価用の日本語音声データセットを対象として、書き起こしの能力を、速さと正確さの両面で競わせた。人の書き起こしの単語精度を1ストロークごとに逐次モニタするツールを作成して精密かつ公平な評価を行った。速さでは、ASRは人の2倍あるいはそれ以上の性能であり、機械が人を大きく上回った。正確さでは、両者ともに平均単語精度が97%を超えたが、ASRが誤認識する少数例にも正答する人の能力がまだわずかに機械を上回る結果となった。In this paper, the current state of automatic speech recognition (ASR) performance was com-pared with human speech transcription capabilities. Both speed and accuracy were tested with a Japanese speech dataset for ASR evaluation. A tool was created to sequentially monitor the word accuracy of human transcription stroke by stroke, to ensure a precise and fair evaluation. In terms of speed, the ASR was more than twice as fast as the human transcribers; the machines greatly outperformed the humans. In accuracy, both had an average word accuracy of more than 97%, but the humans still slightly outperformed the machines, thanks to a few correctly answered instances that ASR misrecognized.2-2-3 人間の能力を超えた音声認識2-2-3Automatic Speech Recognition Beyond Human Capabilities加藤 宏明 河井 恒 水上 悦雄KATO Hiroaki, KAWAI Hisashi, and MIZUKAMI Etsuo232 多言語コミュニケーション技術

元のページ  ../index.html#29

このブックを見る