HTML5 Webook
16/194

な、基礎的な会話における実用レベルのいわゆる“言語の壁を超える”ための音声翻訳性能を達成した。続く第5期中長期計画においては、2025年の大阪万博に向けて、ビジネスシーンでの実用レベルでの自動同時通訳のための研究開発を推進している(以降、GCP2025と記述する。)。音声認識技術の側面から見た、GCPとGCP2025の目標の違いは、前者が、生活会話(交通機関や店舗、病院、公共施設等を利用する際に交わされる会話)を対象とし、機械への音声入力を前提とした比較的改まった発話スタイルでの、一人の話者による、一発話ごとに区切られた音声を認識対象としているのに対して、後者は、自動同時通訳の導入が期待されるような、ビジネスシーンで行われる、プレゼンテーションや打合せ、会議などで交わされる様々な発話スタイルでの、複数話者による、連続した音声に対する逐次認識を目標とする点である。これらの音声認識技術の開発目標にあわせて、音声コーパスを設計しなければならない。また、目的が音声翻訳である以上、互いに自分の母語での音声入力が前提となるため、対象とする全言語の音声認識モデルの開発が必要となり、そのための多言語の音声コーパスが必要となる。GCPにおいては、訪日インバウンド対象国、日本からのアウトバウンド対象国の公用語に鑑み、その対象を日本語、英語、中国語、韓国語、タイ語、ベトナム語、インドネシア語、ミャンマー語、フランス語、スペイン語(以降、GC10言語と記述する。)とし、その後、ブラジルポルトガル語、フィリピン語を追加し、さらに追加言語として、その対象をネパール語、クメール語、モンゴル語にまで拡張した(以降、GC15言語と記述する。)。続く、GCP2025においては、対象言語としてはGC15言語を継承しつつ、近年国内外で高まる経済安全保障上の観点から、ロシア語、アラビア語、ドイツ語、イタリア語、ヒンディー語、ウクライナ語を追加し、本稿執筆時点において、計21言語を対象とした、音声認識モデル開発のための音声コーパスを構築することとなった。以下では、NICTが開発を推進している、多言語音声コーパスの開発について、その詳細を述べる。2.1コーパス設計音声コーパスは、その目的に依存して、大きく分けて、ドメイン(ジャンル)、話者属性、発話スタイル、音響環境の四要素を如何に適応的かつバランスよく収集するかがポイントとなる。前述のように、音声コーパスは主として音響モデル構築のための学習データである。そのため、当該言語で発話され得る、多様な人による、多様な音素のパターンが、しかるべき頻度で出現する必要があるが、どんな人の、どんな発話にも対応可能なモデル、ということになると、有限のコーパスでそれを実現することは難しい。そのため、ある程度目的や対象を絞ってコーパスも収集することが現実的となる。以下に、NICTにおいて開発段階に応じて現在までに構築してきた多言語音声コーパスの種別と、それぞれの設計思想及びその開発経緯について述べる。(1)模擬会話・独話音声コーパス前述のように、GCPにおいてNICTが目指したのは、訪日外国人が日本国内で旅行や生活をする際に、母語で、日本人接遇者とコミュニケーションする、あるいは、邦人が海外に赴いた際に、日本語で同様にコミュニケーションすることを支援するための音声翻訳技術である。そのため、開発当初の設計では、買物場面、病院窓口、公共機関窓口、災害場面、チケット購入及び公共交通機関窓口での会話を想定して、客と接客者、患者と病院関係者、申請者と公共機関窓口担当者のような二者間の一連の会話を模した「模擬会話」を様々な状況を想定して収録するという形をとった。実際の場面ではこの二者間では異なる言語が使用されるわけであるが、インバウンドとアウトバウンドで双方の立場があり得るため、それぞれの言語でこれらを収録すれば、両方の立場の人の音声入力に対応できることになる。想定している発話スタイルは、初対面の人同士で話される程度の、フランク過ぎず、機械へのコマンド入力でもないような発話スタイルと言える。また、話者バランスも、当該言語の対象国におけるインバウンド対象層の男女比や年齢比だけでなく、方言話者比なども考慮した配分設計を行った。音響環境としては、実環境を想定しつつも、突発雑音や他者の声が大きく入るような環境での収録を避けるようにした。模擬会話は、二者による交互の対話であることで、より自然な会話を収録することができるという利点がある一方で、二者がその場にいなければならないという制約がある。まずその二者の予定を合わせる必要がある上に、当日になってどちらかが来られないことも少なくなく、その管理コストは多大である。最初から原稿が用意されていれば、相手がいることを想定して自分の発話だけをすればよく、後にこの「独話」形式の会話も収録することとした。原稿として用いたのは、NICT先進的翻訳技術研究室が構築した多言語パラレルコーパス[1]である。多言語パラレルコーパスは、機械翻訳を目的としているため、対訳の対応関係がつきやすいように、会話と言いながらも直訳的な印象を受ける文スタイルとなっている。そのため、各言語で自然に発話できるように修正した原稿を用い、さらに現場でも各自が話しやすいように適宜変更して発話するようにし、原稿をそのまま読み上げるようなことは禁10   情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術

元のページ  ../index.html#16

このブックを見る