背景近年、深層学習などの機械学習理論の実用化大規模データの蓄積及び計算機の演算処理能力向上に従い、自然言語処理という分野が一層脚光を浴びている。学界における研究及び業界における応用技術開発が共に劇的に進展している。しかしながら、自然言語処理技術の研究・応用はヨーロッパ言語及びアジアの日中韓に偏しており、他の言語に関する研究は、未熟または未開拓と言える。日進月歩の言語処理技術にもかかわらず、世界中各言語における資源整備・処理技術の格差が広がる。これら言語間研究上の巨大な格差は、処理技術より、下敷きとなる言語資源整備の段階から生じる。英語・日本語は1990年代から大規模言語リソースが整備されており、多数のヨーロッパ言語について2000年代以来整備されつつある。先端の言語処理技術は極端に言語資源に依存する一方、多数のアジア言語は資源が極めて不足している状態であり、研究は展開できない状態となっている。アジア地域の言語処理技術及び実用化を向上するために、2016年以来、NICT・先進的音声翻訳研究開発推進センター(ASTREC)にてASEAN地域の東南アジア諸言語を中心とするデータ整備・研究開発を推進している。本稿ではこの期間の研究活動を紹介する。以下は「言語資源の整備」、「解析技術の発展」、「翻訳性能の評価」に分けて詳細を述べる。言語資源の整備「アジア言語ツリーバンク」[1]は東南アジア諸国連合(ASEAN)の公式言語を中心とする、言語学的情報付きの大規模データセットである。具体的に、東南アジア大陸部のビルマ(ミャンマー)語、タイ語、クメール(カンボジア)語、ラーオ語、ベトナム語及び島とう嶼しょ部のマレー・インドネシア語、タガログ(フィリピン)語である。翻訳は英語・日本語・中国語・ヒンディー語・ベンガル語にも拡張した(表1)。本プロジェクトは2016年に発足し、2016年度から2019年度の3年間、ICT Virtual Organization of ASEAN Institutes and NICT(ASEAN IVO)プロジェクトに採択され、ASEAN地域各地の大学・研究機構との広範囲の連携により推進した。ASEAN IVO Forum 2019にて、最優秀貢献賞(Excellent Contribution Award)を受賞した。具体的に、20,000文の新聞記事を上述諸言語に翻訳した多言語対訳データを下敷きとしている。それぞれの言語の言語学的な分析に基づき、工学的自動処理に有益な情報を付け加える。具体的には、表層的な分かち書き・品詞情報及び深層的な構文情報が挙げられる(図1)。このデータセットの整備により、ASEAN地域の多数の言語における自動処理が初めて可能になり、12現在、自然言語処理技術における研究・応用はヨーロッパ言語及び一部のアジア言語に集中しており、広く世界の言語を翻訳するという究極の目的を実現するためには、研究が未熟である言語の抱える中核的な課題を解決し、実用レベルにしなければならない。本稿では、アジア地域、特に東南アジア諸国連合(ASEAN)地域の諸言語を対象とする言語処理技術の近年の発展について述べる。The research and applications of natural language processing technology are concentrated on European languages and some major Asian languages. To realize an ultimate goal of universal translation of the world’s languages, it is important to solve essential problems and develop practi-cal applications for those understudied languages. This paper describes recent developments in language processing technology in the Asian region, especially in the region of the Association of Southeast Asian Nations (ASEAN).2-3-2 アジア言語処理2-3-2Asian Language Processing丁 塵辰DING Chenchen612 多言語コミュニケーション技術
元のページ ../index.html#67