HTML5 Webook
70/194

翻訳性能の評価アジア翻訳ワークショップは2014年発足した、アジア言語を中心とする最先端翻訳技術の評価キャンペーンである。発足当時、日本語と中国語の技術・特許文書の翻訳タスクを中心としていたが、徐々にアジアの多言語・多分野の翻訳に展開していく。アジア諸言語のデータ整備に従い、ビルマ語[10](2018年)、クメール語[11](2019年)及びインド語群の多くの言語の翻訳タスクを導入した。これらのアジア言語の翻訳タスクに対して、Facebook AI (現在 Meta AI)を含む世界中の先端研究チームが興味を示し、参加することになった。アジアの未開拓の言語と最先端の翻訳技術と結び付けている。翻訳性能上、ビルマ語・クメール語の新聞・法律文書において、おおよそ2010年代の日本語における自動翻訳性能に達していることが分かった。終わりに本稿では、近年NICT・ASTRECにてアジア言語処理に関する研究活動を紹介した。アジア言語ツリーバンクプロジェクトを主軸としてデータ整備より着手し、複数のアジア言語におけるデータ不足の現状を大幅に改善した。これに基づき、基盤解析技術及び自動翻訳等の応用技術を発展させた。今までの研究により、諸アジア言語の処理技術を短時間で引き上げた。参考文献】【1Hammam Riza, Michael Purwoadi, Gunarso, Teduh Uliniansyah, Aw Ai Ti, Sharifah Mahani Aljunied, Luong Chi Mai, Vu Tat Thang, Nguyen Phuong Thai, Vichet Chea, Rapid Sun, Sethserey Sam, Sopheap Seng, Khin Mar Soe, Khin Thandar Nwet, Masao Utiyama, and Chenchen Ding, “Introduction of the Asian Language Treebank,” Proc. of O-CO-COSDA, pp.1–6, 2016.2Chenchen Ding, Ye Kyaw Thu, Masao Utiyama, and Eiichiro Sumita, “Word Segmentation for Burmese (Myanmar),” ACM Transactions on Asian and Low-Resource Language Information Processing, vol.15, Issue 4, Article no.22, 2016.3Chenchen Ding, Masao Utiyama, and Eiichiro Sumita, “NOVA: A Fea-sible and Flexible Annotation System for Joint Tokenization and Part-of-Speech Tagging,” ACM Transactions on Asian and Low-Resource Language Information Processing, vol.18, Issue 2, Article no.17, 2018.4Chenchen Ding, Hnin Thu Zar Aye, Win Pa Pa, Khin Thandar Nwet, Khin Mar Soe, Masao Utiyama, and Eiichiro Sumita, “Towards Burmese (Myanmar) Morphological Analysis: Syllable-based Tokenization and Part-of-Speech Tagging,” ACM Transactions on Asian and Low-Re-source Language Information Processing, vol.19, Issue 1, Article no.5, 2019.5Chenchen Ding, Sann Su Su Yee, Win Pa Pa, Khin Mar Soe, Masao Utiyama, and Eiichiro Sumita,“A Burmese (Myanmar) Treebank: Guide-line and Analysis,” ACM Transactions on Asian and Low-Resource Language Information Processing, vol.19, Issue 3, Article no.40, 2020.6Hour Kaing, Chenchen Ding, Masao Utiyama, Eiichiro Sumita, Sethserey Sam, Sopheap Seng, Katsuhito Sudoh, and Satoshi Nakamura, “To-wards Tokenization and Part-of-Speech Tagging for Khmer: Data and Discussion,” ACM Transactions on Asian and Low-Resource Language Information Processing, vol.20, Issue 6, Article no.104, 2021.7Chenchen Ding, Vichet Chea, Masao Utiyama, Eiichiro Sumita, Seth-serey Sam, and Sopheap Seng.,“Statistical Khmer Name Romaniza-tion,” Proc. of PACLING, CCIS 781, pp.179–-190, 2018.8Chenchen Ding, Win Pa Pa, Masao Utiyama, and Eiichiro Sumita,“Burmese (Myanmar) Name Romanization: A Sub-syllabic Segmentation Scheme for Statistical Solutions,” Proc. of PACLING, CCIS 781, pp.191–202, 2018.9Aye Myat Mon, Chenchen Ding, Hour Kaing, Khin Mar Soe, Masao Utiyama, and Eiichiro Sumita,“A Myanmar (Burmese)-English Named Entity Transliteration Dictionary,” Proc. of LREC, pp.2973–2976, 2020.10Toshiaki Nakazawa, Katsuhito Sudoh, Shohei Higashiyama, Chenchen Ding, Raj Dabre, Hideya Mino, Isao Goto, Win Pa Pa, Anoop Kunchu-kuttan, and Sadao Kurohashi,“Overview of the 5th Workshop on Asian Translation,” Proc. of PACLIC, pp.904--944, 2018.11Toshiaki Nakazawa, Nobushige Doi, Shohei Higashiyama, Chenchen Ding, Raj Dabre, Hideya Mino, Isao Goto, Win Pa Pa, Anoop Kunchu-kuttan, Shantipriya Parida, Ondřej Bojar, and Sadao Kurohashi, “Over-view of the 6th Workshop on Asian Translation,” Proc. of WAT, pp.1–35, 2019.丁 塵辰 (てい じんしん)ユニバーサルコミュニケーション研究所先進的音声翻訳研究開発推進センター先進的翻訳技術研究室主任研究員博士(工学)計算言語学、自然言語処理【受賞歴】2017年  Pacific Association for Computational Linguistics, Best Paper Award4564   情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術

元のページ  ../index.html#70

このブックを見る