HTML5 Webook
33/194

まえがき音声認識技術は文字通り、入力された音声を文字(テキスト)に変換する技術であり、これまで連綿と研究開発が続けられてきた。近年における幾つかの技術革新により音声認識技術は急速な発展を遂げ、スマートフォン、タブレット等のモバイルデバイスにおける音声検索、音声翻訳や、スマートスピーカーでの音声操作、映像メディア等への自動字幕付与等、様々な場面で活用され我々の生活に浸透しつつある。音声認識技術は古くは種々のDynamic program-mingもしくはDynamic time warpingに基づく単純なパターンマッチング手法[1]に始まり、1990年代から2000年代前半には機械学習技術[2]の発展に伴い、隠れマルコフモデル(HMM: Hidden Markov Model)[3]やN-gram言語モデル[4][5]、有限状態トランスデューサー(WFST: Weighted Finite State Transducer)[6][7]等の方法を用いた統計的音声認識[8]が登場し、様々な技術提案がなされた。その後、2000年代後半ごろの深層学習(Deep Learning)[9]–[11]の登場により大幅な性能改善が示された。2010年代には深層学習に基づく音声認識[12]–[20]の研究開発が極めて活発化し、その中で数多くの革新的な技術が提案され、音声認識が様々な形で実用化されるに至った。このような研究開発の歴史において、NICTにおいても第一線での研究開発を継続的に実施して着実に技術改善を示しており、直近では最新技術であるEnd-to-End音声認識の研究開発に注力している。また、NICTでは多言語音声翻訳技術の社会実装を至上命題としており、その成果の一つとしてモバイル端末における多言語音声翻訳アプリVoiceTra® [21]を開発し、社会実装における実証実験の名目で無償公開している。VoiceTra®では様々な言語の音声が入力されるので、単言語ではなく多言語の音声認識が必要となる。そのため、NICTではアジア言語を中心とした20言語前後の音声認識を開発し、実装している。このようにNICTでは第一線での研究成果の展開のみならず、様々な言語のユーザーが音声認識を利用できるよう幅1音声認識技術の研究開発は古典的なパターンマッチング問題から始まり、機械学習技術の発展に伴い統計的音声認識が登場した。その後、深層学習技術の台頭によりハイブリッド型音声認識の研究が行われ、さらにEnd-to-End音声認識に発展した。NICTにおいてもこのような世界的な動向に追随して研究開発を推進しており、特に多言語の音声認識を展開している。また、最新技術であるEnd-to-End音声認識の研究開発にも注力している。研究成果は、モバイルデバイス向けの音声翻訳アプリVoiceTraⓇ等、様々な場面で活用されている。本稿では音声認識のこれまでの技術発展について俯ふ瞰かんし、それに伴うNICTの研究開発について述べる。Research and development (R&D) of speech recognition technology began with solving the traditional pattern matching problem. As machine learning technology developed, statistical speech recognition methods emerged. Then, the appearance of deep learning technology led to research on hybrid-style speech recognition and has further developed into End-to-End speech recognition. NICT has been on the same boat as these worldwide trends promoting R&D of speech recognition, especially focused on ``multilingual'' speech recognition. Furthermore, R&D of state-of-the-art End-to-End speech recognition is also being conducted. Research results are used in a wide variety of products and services deployed by various organizations, including VoiceTra®, a multilingual speech-to-speech translation app for mobile devices. This paper describes an overview of the technological development of speech recognition and R&D carried out at NICT. 2-2-4 音声認識技術2-2-4Speech Recognition Technology藤本 雅清FUJIMOTO Masakiyo272 多言語コミュニケーション技術

元のページ  ../index.html#33

このブックを見る