化した単位(Real Time Factor、以下RTF)で示す。たとえば、長さ2秒間の音声の書き起こしに4秒を要したとすると、所要時間は2.0 RTFである。2.6機械による文字起こし同じ音声素材をASRシステムに入力し、人の書き起こしの場合と同じ方法で各評価指標を得た。ASRシステムには、VoiceTra®の音声認識部を用いた。Voi-ceTraの日本語音声認識は、2020年時点で一般に利用可能な商用APIサービスとおおむね同等の認識精度であることを確認している。機械における音声入力は、ASRシステムの性能評価における標準的な方法を踏襲するため、音響的に一旦再生することなく、計算機上で音声ファイルをディスクから直接読み込んで行った。したがって、所要時間は、実際に再生された音声を読み込みつつ処理した場合と同じになるよう補正した。使用計算機のCPUはIntel® Xeon® Gold (6152 CPU、 動作周波数 2.1 GHz)であった。結果と考察3.1再生回数による結果の違い人と機械の単語精度と所要時間との関係を図2に示す。700音声の平均値である。人の場合は、さらに書き起こし者3人を平均した結果である。比較のため、図の横軸は最も長いものに合わせて延長した。これらの最終値を表2に示す。まず、1回のみ再生の条件では、機械は人よりも明らかに早く処理を終え、平均的な速さは人の2倍以上であった。正確さにおいても、機械が処理を終えた時点では人は機械にはるかに及ばず、時間をかけても機械をしのぐことはなかった。次に、人に複数回の再生を許した条件では、音声の再生開始から約2 RTFまでの間は1回再生の結果に重なるが、その後、時間の経過とともに単語精度が上昇し、最終的にはすべての書き起こし者が機械を上回った。3.2機械が人に及ばない部分時間とともに人と機械の単語精度が逆転した背景には、人は容易に排除できるが機械にとってはそうではない誤認識候補の存在があった。表3に例を示す。機械の誤認識部分は、いずれも音響的に正解に近く文法的にも正しいが、人ならばまずおかさない誤りであるようだ。①と②は発話の残りの部分との意味的な整合性からあり得ない候補である。③と④は拍数やアクセントといった韻律要素が違うので候補から除外される。⑤はその両方を含む。302040608010002468人(1回)人(複数回)機械所要時間(RTF)単語精度(%)700音声の平均図2 人と機械の文字起こし比較実験の結果単語精度 (%)所要時間 (RTF)平均再生回数機械97.881.111人(1回)88.552.261人(複数回)99.714.422.46表2 人と機械の文字起こし比較実験の結果人の書き起こし(正解)機械の認識結果 (誤認識)①送信者にユーザーが含まれている場合、オンにします。〜本にします。②カニですね、どの辺が、カニに見えるのですか?〜仮に見える〜③まずは型名を教えてください。まずは片目を〜④根津には、東京メトロという地下鉄を利用して行きます。ネズミは、〜⑤プロテスタントでは、牧師と言うのですが、たぶんそうすると思います。〜ボックスと言うのですが〜表3 人が正解した機械の誤認識例(下線部で人と機械が異なる)252-2-3 人間の能力を超えた音声認識
元のページ ../index.html#31