HTML5 Webook
30/194

その結果、745発話が残った。音声素材の諸元を表1に示す。2.2実験参加者プロの書き起こし者3人と校正者1人が実験に参加した。いずれも日本語音声書き起こし作業者として3年以上の経験を有し、かつ実収録時間で50時間以上の日本語音声の書き起こし実績を持ち、その間作業の速度と正確さにおいて優秀と認められた者であり、実験実施時点でピーク時と同等の能力を維持していた。校正者は機械では原理的に生じ得ないタイプミスを修正する役割で加わった。従来報告の中ではSaonら[3]が採用した体制である。2.3実験準備:書き起こし制御・測定ツール図1の左側に人の右側に機械の実験の流れを示す。人の側の実験の流れを制御し、必要なデータを測定・記録するために、専用のツールを作成した。このツールは、使用者の求めに応じて音声ファイルをあらかじめ決められた順序で再生・停止し、書き起こしの内容を記録するとともに、書き起こし時にタイプされたすべてのキーストロークの打鍵時刻を、音声の1回目の再生開始時点を起点とした経過時間としてミリ秒単位で記録した。加えて、使用者が校正者の場合には、音声の1回目の再生開始と同時に校正対象のテキストを修正可能な状態で表示した。2.4実験実施音声素材のうち、ランダムに選んだ45発話を練習用とし、残り700発話を本実験用とした。参加者はPC(HP, p6-2410jp)上で動作する書き起こし制御・測定ツールにて書き起こしの練習を行い、ツールに十分慣れた後、1時間以上の休憩をおいて本実験に臨んだ。ランダムな順序で再生される対象音声をヘッドホン(Sony, MDR-CD900ST)で聞き、PC付属のキーボードで書き起こした。日本語入力システムはOS(Win-dows 10 Pro)に組み込みのIMEを用いた。IMEの学習履歴は各実験セッション開始時に初期化され、自動修正機能は使われなかった。書き起こし者は各音声ファイルの1回目の再生で最大限書き起こした後、必要ならば2回以上聞き取り、間違いがないと判断した時点で終了した。3人とも700発話を書き起こした。校正者は同じ方法で書き起こし者の結果を修正した。2.5評価指標書き起こしの正確さの指標は下記の式で定義される単語精度とした。単語精度 = 1 − (Sub + Del + Ins) / NWここで、NW: 発話の対象部分に含まれる語の数。Sub: 置換。正解と異なる語の数。Del: 削除。正解にあり結果にない語の数。Ins: 挿入。正解になく結果にある語の数。速さの指標は1回目の再生開始からの所要時間とした。所要時間は、対象音声の時間長の違いによる統計値への影響を吸収するため、音声の継続時間長で正規名称SPREDS2 ja(一部)発話タイプ原稿読み上げ収録環境クリーン環境 (SN比>15 dB)収録場所会議室収録機材iPhone 4/4S/5/5S/6 (いずれか)ドメイン余暇,医療,防災,住居,消費,移動,情報通信、子育て,勤労,教養デジタル化方式標本化周波数16 kHz精度16ビット線形量子化発話数745音声区間の合計時間長(時間)0.95発話ごとの平均・最大・最小時間長(秒)4.6, 15.6, 1.3同平均・最大・最小語数14.8, 34, 4同平均・最大・最小モーラ数31.2, 74, 8表1 音声素材の諸元読み込み聞き取り聞き取り書き起こし結果認識結果書き起こし結果人の結果機械の結果書き起こし者校正者所要時間の測定単語精度の計算日本語音声自動音声認識図1 人と機械の文字起こし比較実験の流れ24   情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術

元のページ  ../index.html#30

このブックを見る