進支援事業費補助事業(聴覚障害者放送視聴支援緊急対策事業)」[76]に採択されたことを受け、放送番組を始めとする様々な映像メディアに対する自動字幕表示システムの研究開発を推進している。本事業における実証実験では、複数の放送事業者が実際に放送した番組上で自動字幕表示システムを稼働させてリアルタイムでの字幕表示実験を行った。実証実験後に実施したアンケート調査の結果、ニュース番組等では十分実用に足る性能であるとのコメントが数多くあり、高い評価を得ることができた。現在、幾つかの機関との共同研究を通じて実用化に向けた検討を行っている。あとがき本稿では、音声認識の技術動向について俯瞰し、統計的音声認識、ハイブリッド型音声認識、E2E音声認識への移り変わりと、それらの代表的な技術について解説を行った。また、このような世界的な技術発展におけるNICTの取組について紹介した。今後、音声認識技術はますます発展していくことが予想されるが、NICTにおいてもそれに追随して、今後も第一線での研究開発を推進する予定である。参考文献】【1L. Rabiner and C. Schmidt, “Application of dynamic time warping to connected digit recognition,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol.28, issue 4, pp.377–388, Aug. 1980.2C. M. Bishop, “Pattern recognition and machine learning,” Springer, 2006.3X. D. Huang, Y. Ariki, and M. A. Jack, “Hidden Markov models for speech recognition,” Edinburgh University Press, 1990.4H. Ney, U. Essen, and R. Kneser, “On structuring probabilistic depen-dences in stochastic language modelling,” Computer Speech & Lan-guage, vol.8, issue 1, pp.1–38, Jan. 1994.5R. Rosenfeld, “The CMU statistical language modeling toolkit and its use in the 1994 ARPA CSR evaluation,” Proceedings of ARPA Spoken Language Systems Technology Workshop, pp.47–50, Jan. 1995.6堀 貴明,塚田 元,“重み付き有限状態トランスデューサによる音声認識,” 情報処理学会誌,45巻,10号,pp.1020–1026,Oct. 2004.7T. Hori, C. Hori, Y. Minami, and A. Nakamura, “Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition,” IEEE Transactions on Audio, Speech, and Language Processing, vol.15, issue 4, pp.1352–1365, May 2007.8F. Jelinek, “Statistical methods for speech recognition (Language, speech, and communication),” MIT Press, 1998.9Y. LeCun, Y. Bengio, and G. E. Hinton, “Deep learning,” Nature, vol.521, no.7553, pp.436–444, May 2015.10I. Goodfellow, Y. Bengio, and A. Courville, “Deep learning,” MIT Press, 2016.11麻生 英樹,安田 宗樹,前田 新一,岡野原 大輔,岡谷 貴之,久保 陽太郎,ボレガラ ダヌシカ,神嶌 敏弘,“深層学習 − Deep learning,” 近代科学社,2015.12D. Yu and L. Deng, “Automatic speech recognition: A deep learning approach,” Springer, 2015.13S. Watanabe, M. Delcroix, F. Metze, and J. R. Hershey, “New era for robust speech recognition - Exploiting deep learning,” Springer, 2017. 14U. Kamath, J. Liu, and J. Whitaker, “Deep learning for NLP and speech recognition,” Springer, 2019.15久保 陽太郎,“音声認識のための深層学習,” 人工知能,29巻,1号,pp.62–71,Jan. 2014.16神田 直之,“音声認識における深層学習に基づく音響モデル,” 日本音響学会誌,73巻,1号,pp.31–38,Jan. 2017.17渡部 晋治,堀 貴明,“音声言語理解のための音声認識,” 電子情報通信学会誌,vol.101,no.9,pp.885–890,Sept. 2018.18高島 遼一,“Pythonで学ぶ音声認識,” インプレス, 2021.19久保 陽太郎,“機械学習による音声認識,” コロナ社,2021.20渡部 晋治,久保 陽太郎,“深層学習が支える音声認識技術,” 電子情報通信学会誌, vol.105,no.5,pp.392–396,May 2022.21多言語音声翻訳アプリVoiceTra, https://voicetra.nict.go.jp22河原 達也,“音声認識システム,” オーム社, 2006.23L. E. Baum and T. Petrie, “Statistical inference for probabilistic functions of finite state Markov chains,” The Annals of Mathematical Statistics, vol.37, no.6, pp.1554–1563, Dec. 1996.24村上 仁一,“Baum-Welchアルゴリズムの動作と応用例,” IEICE Fundamentals Review, vol.4, no.1, pp.48–56, Jan. 2010.25A. J. Viterbi, “Error bounds for convolutional codes and an asymptoti-cally optimum decoding algorithm,” IEEE Transactions on Information Theory, vol.13, issue 2, pp.260–269, April 1967.26G. D. Forney, “The Viterbi algorithm,” in Proceedings of the IEEE, vol.61, issue 3, pp.268–278, March 1973.27S. J. Young and P. Woodland, “The use of state tying in continuous speech recognition,” Proceedings of Eurospeech ’93, pp.2203–2206, Sept. 1993.28J. R. Bellegarda and D. Nahamoo, “Tied mixture continuous parameter models for large vocabulary isolated speech recognition,” Proceedings of ICASSP ’89, pp.13–16, May 1989.29鷹見 淳一,嵯峨山 茂樹,“逐次状態分割による隠れマルコフ網の自動生成,” 電子情報通信学会論文誌,J76-DII, vol.10, pp.2155–2164, Oct. 1993.30S. M. Katz, “Estimation of probabilities from sparse data for the lan-guage model component of a speech recognizer,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol.35, issue 3, pp.400–401, March 1987.31川端 豪,“二項事後分布に基づくN-gram記号連鎖確率の推定,” 日本音響学会誌,61巻,8号,pp.441–447,Aug. 2005.32大西 翼,ポール ディクソン,岩野 公司,古井 貞煕,“WFST音声認識デコーダにおけるon-the-fly合成の最適化処理,” 電子情報通信学会論文誌,J92-DII, vol.7,pp.1026–1035,July 2009.33ポール ディクソン,堀 智織,柏岡 秀樹,“SprinTra WFST 音声デコーダ開発について,” 情報通信研究機構研究報告,58巻,3/4号,pp.13–18, Sept./Dec. 2012.34H. A. Bourlard and N. Morgan, “Connectionist speech recognition: A hybrid approach,” Kluwer Academic Publishers, Oct. 1993.35S. Renals, N. Morgan, H. Bourlard, M. Cohen, and H. Franco, “Con-nectionist probability estimators in HMM speech recognition,” IEEE Transactions on Speech and Audio Processing, vol.2, issue 1, pp.161–174, Jan. 1994.36O. Abdel-Hamid, A. Mohamed, H. Jiang, L. Deng, G. Penn, and D. Yu, “Convolutional neural networks for speech recognition,” IEEE Transac-tions on Audio, Speech, and Language Processing, vol.22, issue 10, pp.1535–1545, Oct. 2014.37T. N. Sainath, A. Mohamed, B. Kingsbury, and B. Ramabhadran, “Deep convolutional neural networks for LVCSR,” Neural Networks, vol.64, pp.39–48, April 2015.38Y. Zhang, W. Chan, and N. Jaitly, “Very deep convolutional networks for end-to-end speech recognition,” Proceedings of ICASSP ’17, pp.4845–4849, June 2017.39N. Kanda, M. Tachimori, X. Lu, and H. Kawai, “Training data pseudo-shuffling and direct decoding framework for recurrent neural network based acoustic modeling,” Proceedings of ASRU ’15, pp.13–17, Dec. 2015.40Y. Bengio, R. Ducharme, P. Vincent, and C. Janvin, “A neural probabi-listic language model,” The journal of machine learning research, vol.3, pp.1137–1155, March 2003.41T. Mikolov, L. Karafiat, L. Burget, J. Cernocky and S. Khudanpur, “Re-current neural network-based language model,” Proceedings of Inter-speech ’10, pp.1045–1048, Sept. 2010.42H. Sak, A. Senior, and F. Beaufays, “Long short-term memory recurrent neural network architectures for large scale acoustic modeling,” Pro-536 情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術
元のページ ../index.html#42