ない単語があったりと、多様な非流暢要素が増大することとなり、そのような特徴が適度に含まれるコーパスでなければならない。よって、理想的には、実際のビジネス現場の音声を収録することができれば、まさに目的に応じた音声コーパスとなるのだが、機密情報保護の観点からも、収録に協力いただける企業は多くは望めず、モデル学習に必要なデータ量に対して、現実的とは言えない。よって、GCP2025の最初の段階では、各種業界における講演や会議のシナリオを作成して、それを当該業界の実務経験者がそれぞれの訳を演じて収録をする形式をとった。しかしながら、それだけでは、実際のビジネスシーンで交わされるような多様な特徴を有する音声への対応は十分ではないので、シナリオのない、自発発話で構成される会話音声が必要になる。そのため、テーマだけを設定して、二者、あるいは三者で自由に会話をしてもらうような会話音声も収録することとした。当初は、シナリオのある講演(“フォーマル”スタイル)を主として、シナリオのある会議(“インフォーマル”スタイル)、シナリオのない会話(“カジュアル”スタイル)の順にコーパス比率を下げる設計としていたが、その後の検討により、フォーマルやインフォーマルよりも、カジュアルスタイルの音声が比較的、講演や会議の音声認識に効果的であることが示唆された*3。よって、現在では、カジュアルの比率を重視したコーパス設計となっている。表1に、「模擬会話・独話」「発話ログ」「講演(フォーマル)」「会議(インフォーマル)」「会話(カジュアル)」音声コーパスの諸特徴をまとめる。2.2アノテーション仕様音声コーパスは、音声データとその書き起こしから成る、と最初に述べた。この際、音響モデル学習の観点からは、実際の発話における、各音素の正解ラベルとしての文字転記であればよい、ということになる。しかしながら、それは、例えば、日本語であれば、すべて仮名で書き下せばいい、というものではなく、言語モデル学習への援用ということを考えても、最終的な「単語列の出力」という音声認識の目的からも、当該言語の正書法、日本語であれば、漢字仮名交じりの理解可能なテキストとして記述する必要がある。また、例えば、二桁以上の数字の場合、算用数字で記述することが一般的ではあるものの、例えば、「123」と書いた場合に、これを「いち、に、さん」と読むのか、「ひゃくにじゅうさん」と読むのかが特定できないため、そのような、テキストだけでは読みが特定できない単語列に対する、実際の発話にあわせた読み方も合わせて記述することが望まれる。NICTでは、音声認識技術のための学習データであることを前提として、過剰なタグの使用は避けつつも、最低限の全言語共通のアノテーション仕様を定めて、書き起こしを作成している。その主な内容は以下である。 •各言語の標準表記(正書法)で書き起こす。 •フィラーや感嘆詞はマークする(例:[
元のページ ../index.html#18