HTML5 Webook
18/194

ない単語があったりと、多様な非流暢要素が増大することとなり、そのような特徴が適度に含まれるコーパスでなければならない。よって、理想的には、実際のビジネス現場の音声を収録することができれば、まさに目的に応じた音声コーパスとなるのだが、機密情報保護の観点からも、収録に協力いただける企業は多くは望めず、モデル学習に必要なデータ量に対して、現実的とは言えない。よって、GCP2025の最初の段階では、各種業界における講演や会議のシナリオを作成して、それを当該業界の実務経験者がそれぞれの訳を演じて収録をする形式をとった。しかしながら、それだけでは、実際のビジネスシーンで交わされるような多様な特徴を有する音声への対応は十分ではないので、シナリオのない、自発発話で構成される会話音声が必要になる。そのため、テーマだけを設定して、二者、あるいは三者で自由に会話をしてもらうような会話音声も収録することとした。当初は、シナリオのある講演(“フォーマル”スタイル)を主として、シナリオのある会議(“インフォーマル”スタイル)、シナリオのない会話(“カジュアル”スタイル)の順にコーパス比率を下げる設計としていたが、その後の検討により、フォーマルやインフォーマルよりも、カジュアルスタイルの音声が比較的、講演や会議の音声認識に効果的であることが示唆された*3。よって、現在では、カジュアルの比率を重視したコーパス設計となっている。表1に、「模擬会話・独話」「発話ログ」「講演(フォーマル)」「会議(インフォーマル)」「会話(カジュアル)」音声コーパスの諸特徴をまとめる。2.2アノテーション仕様音声コーパスは、音声データとその書き起こしから成る、と最初に述べた。この際、音響モデル学習の観点からは、実際の発話における、各音素の正解ラベルとしての文字転記であればよい、ということになる。しかしながら、それは、例えば、日本語であれば、すべて仮名で書き下せばいい、というものではなく、言語モデル学習への援用ということを考えても、最終的な「単語列の出力」という音声認識の目的からも、当該言語の正書法、日本語であれば、漢字仮名交じりの理解可能なテキストとして記述する必要がある。また、例えば、二桁以上の数字の場合、算用数字で記述することが一般的ではあるものの、例えば、「123」と書いた場合に、これを「いち、に、さん」と読むのか、「ひゃくにじゅうさん」と読むのかが特定できないため、そのような、テキストだけでは読みが特定できない単語列に対する、実際の発話にあわせた読み方も合わせて記述することが望まれる。NICTでは、音声認識技術のための学習データであることを前提として、過剰なタグの使用は避けつつも、最低限の全言語共通のアノテーション仕様を定めて、書き起こしを作成している。その主な内容は以下である。 •各言語の標準表記(正書法)で書き起こす。 •フィラーや感嘆詞はマークする(例:[/あのー])。 •読みが特定できない、外来語表記や二桁以上の数字に関しては、標準表記とスペルアウトを併記する(例:[123/one two three]、[DX/デジタルトランスフォーメーション]など)。 •一文の終わりには終止符を打つ(通常句点を用いないタイ語等の言語も必要)。 •言い誤りや訛り発音などは、併記する(例:[/実発音]、[正表記/実発音]など)。 •無視できない非言語音はマークする(例:雑音[]、笑い[]など)。実際には、言語特有の事情があり、ある程度はそれらを尊重した仕様となっているが、言語間で基本仕様を統一することは、モデル学習プログラムの言語共通部分のメンテナンスコストを下げる、という利点もある。書き起こし精度は、認識モデル性能に直結するため、大量の音声データに対して、統一的にアノテーション仕様に従った記載がなされているかが極めて重要となるが、それには検査方法論上の問題も伴い[2]、作業コストとのバランスが求められる。また、GCP2025においては、自由会話も対象としなければならないため、例えば、自由会話では頻繁に出現する相槌をマークしたり、多発するフィラーや言い誤りに対する書き起こし方への規定をより明確化する必要があり、現在でもアノテーション仕様は継続して更新している。NICT多言語対訳辞書上述までに、音響モデルのための「音声コーパス」について述べてきたが、音声認識にとっては、言語モデルのための「テキストコーパス」も、単語列の推定には重要な役割を果たす。本稿においては、紙幅の関係でこれについては詳しく述べないが、学習データとしてのコーパス内に存在しない語彙は原則出力されることはないため、音響的に似た別の語彙が出力され、いわゆる誤認識の原因の一つとなる。これは、音声認識の3*3音声認識モデルのベースとなっている生活会話の音声コーパスと「フォーマル」や「インフォーマル」では、発話スタイルとしての差異がそれほど大きくないことが要因の一つと考えられる。12   情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術

元のページ  ../index.html#18

このブックを見る