HTML5 Webook
15/194

まえがき近年のAI技術のコア技術となる深層学習を主とした機械学習によるモデル構築においては、学習対象となるデータの適切な選定とデータ量がそのモデル性能に大きく影響を及ぼす。情報通信研究機構(NICT)で研究開発を推進している自動音声翻訳(speech-to-speech translation)技術においてもそれは変わらない。現状のスタンダードな音声翻訳技術は、音声認識・機械翻訳・音声合成の三つの技術の結合技術として達成されているが、このうち、本稿で取り上げる音声コーパス(speech corpus)は、音声認識技術のための学習データであり、音声データとその書き起こしデータから成る。音声認識(automatic speech recognition)は、音声をテキスト(文)に変換するシステムであり、一連の音(音素)の入力に対して、もっともらしい文字を推定するためのモデル、すなわち“音響モデル”と、一連の文字の入力に対して、もっともらしい単語列、文章を推定するためのモデル、すなわち“言語モデル”の二つのモデルの統合によって実現されている。このうち、音声コーパスは、音響モデル学習のための学習データと言える*1。本稿ではNICTで開発している音声認識のための多言語音声コーパス(multilingual speech corpora)の概要を記述するとともに、その開発の歴史について述べる。NICT多言語音声コーパス2014年に総務省が掲げたグローバルコミュニケーション計画(以降、GCPと記述する。)に基づき、NICTではその第4期中長期計画において、東京オリンピックを見据え、インバウンドあるいはアウトバウンドの利用者が、来日時、あるいは訪問国において、互いが互いの母語でのコミュニケーションを可能とするよう12統計的機械学習手法を用いる音声認識モデルにおいては、学習データとしての“音声コーパス”が必要となる。NICTでは、第4期中長期計画において、生活会話における日英中韓をはじめとした15言語の実用レベルの音声翻訳技術を開発し、現在の第5期中長期計画においては、ビジネスシーンにおける実用的な自動同時通訳技術の開発を目指している。本稿では、これらの音声翻訳技術の一つの要素技術である音声認識の開発及び改善のために、多言語の音声コーパスをどのように設計し、構築してきたのか、について報告する。In speech recognition modeling using statistical machine learning methods, “speech corpus” is necessary as training data. During the 4th mid-long-term plan, NICT developed a practical speech-to-speech translation technology for daily conversations supporting 15 languages including Japa-nese, English, Chinese and Korean and in the current 5th mid-long-term plan, we aim to develop a practical-level automatic simultaneous interpretation system that can be used for business. In this paper, we report the designing and development process of constructing the multilingual speech corpora used for developing and improving speech recognition—one of the elements of speech-to-speech translation technology.2-2 音声コミュニケーション技術2-2Speech Communication Technology2-2-1 多言語音声コーパス2-2-1Multilingual Speech Corpora水上 悦雄 加藤 宏明MIZUKAMI Etsuo and KATO Hiroaki*1書き起こしは言語モデルの学習にも用いるが、それだけでは十分ではないので、Web等から収集したより大規模なテキストコーパスをベースとするのが一般的である。92 多言語コミュニケーション技術

元のページ  ../index.html#15

このブックを見る