HTML5 Webook
17/194

じた。音響環境としても、模擬会話収録当初は、雑音の混入を恐れるばかりに防音対策のとられた部屋で収録されることが多く、周りの雑音が自然に入ってくるような、実環境での収録を推奨した。後述するように一部の言語を除き、GC15言語のほとんどは、模擬会話形式よりも、この独話形式の音声コーパスによって構成されており、NICTの音声認識技術のベースとなっている。(2)発話ログ音声書き起こしコーパス前述の「模擬会話・独話」形式で想定していたシチュエーションは、理想的には、当該状況で交わされる、人と人の自然な会話スタイルによるコミュニケーションである。ただし、実際に機械を介したコミュニケーションをする場合、必ずしも人同士の発話スタイルのようにはならず、かつ、音声認識や機械翻訳が長文を受理できないと考える話者―実際には、ある程度の長さの文であるほうがよいのだが―の発話は短いフレーズのようなものが多い。また、様々な音響環境に対応するために、学習データに雑音を重畳して耐雑音性を強化することもできるが、実環境で収録された音声を用いることができるなら、それに越したことはない。NICTでは、GCPの実証実験として、また成果公開の一環として音声翻訳アプリVoiceTra®(https://voice-tra.nict.go.jp/)を現在も公開している。このVoiceTra®はまさに実環境における実ユーザ発話(発話ログ)が収録されているため、これを書き起こして、学習データに用いる*2ことができれば、より現場音声に強い音声認識モデルを構築することができる。よって、この発話ログが十分にある言語においては、これを利活用することで、VoiceTra®入力音声に対する頑健性を向上させている。特に、日本語は本稿執筆時点の2022年7月段階で、累計1.3憶発話を超える音声入力があり、また、ミャンマー語は、2015年12月のVoiceTra®公開時点では、世界ではじめてのミャンマー語による音声翻訳が可能なアプリであったこともあり、徐々に利用者が増え、2018年12月には一日10万発話を超え、一時期日本語の入力数を上回っていた。現在でも、ミャンマー語は日本語、英語に次ぎ、中国語を上回る音声入力数となっており、これら四言語については、音声コーパスのバランスとしてもその他の言語に比して発話ログが重きを占めている。GC15言語の各言語で「模擬会話・独話」と「発話ログ」のコーパスのバランスは異なるものの、結果として生活会話に対する、実用レベルの音声認識精度達成に貢献している。(3)講演・会議・会話音声コーパス前述のように、GCPにおける音声コーパスが、観光・生活シーンにおける機械への音声入力を前提とした短文認識を対象としていたのに対して、GCP2025においては、講演音声やビジネスミーティング音声の逐次認識を対象としている。そのために必要な音声コーパスも必然的に、講演やプレゼン、打ち合わせや会議の音声となる。ドメインとしても、観光・生活ドメインから、各種業種におけるビジネスドメインに変わり、専門用語や、ビジネス用語への対応も必要になるだけでなく、ビジネスシーン特有の表現、言い回しがコーパス内に適切に含まれなければならない。また、発話スタイルとしても、事前に準備が可能な講演やプレゼンであれば、ある程度形式的で、言い淀みや言い誤りなどの非流暢要素も多くはないが、日々行われる打合せや会議においては、参加者間の関係性にも依存して、丁寧さの度合いや敬体も様々に変化するだけでなく、話者によっては、早口であったり、はっきりと発音しシナリオドメイン話者属性発話スタイル発話の長さ音響環境模擬会話・独話あり観光・生活男女比、年代比、方言比率を考慮比較的改まった発話フレーズ~数文比較的静音~実環境発話ログなし不定1 不定不定2 比較的短文3 実環境講演(フォーマル)ありビジネス実務経験者、標準語話者重視丁寧、非流暢性低~中長文屋内実環境会議(インフォーマル)あり多様、非流暢性中~大短文~長文会話(カジュアル)なし多様、非流暢性大1 主な利用用途はインバウンド、アウトバウンドの現地でのコミュニケーション目的であることが推測されるが、語学学習用としても利用されているようである。2 発話スタイルは、ユーザの利用用途に依存し、コマンド入力のようなものから、人に対する発話同様に、カジュアルであったり、丁寧であったり様々である。3 VoiceTra®は、無音を検出して入力を確定するEPD(end-point-detection)が導入されており、かつ、10秒程度の制限時間がある。表1 NICT多言語音声コーパスの諸特徴*2VoiceTra®利用ユーザの皆様には、音声翻訳技術開発のために入力データの利活用に許諾の上、利用いただいている。112-2-1 多言語音声コーパス

元のページ  ../index.html#17

このブックを見る