HTML5 Webook
69/194

3.2単語分かち書きと構文解析の統合上述したように「語」と「品詞」の曖昧さについて、更に展開するとすなわち「意味単位」の同定につながる。日本語、中国語のような処理技術が進んでいる言語において、複数の分かち書き・品詞体系が確立され、運用上のネックとなる場合もある。近年技術の発展により、文字単位のような語より小さい粒度から直接モデルを学習することができるようになり、ある程度人間による定義の曖昧さを回避できていた。「NOVA」は設計する時点で単語境目にある曖昧性を許容する。すなわち「意味単位」の粒度を従来の「語」「節」「句」「文」など定義を回避し、「意味単位」の入れ子構造のみに注目している。これは工学処理に向けて言語における根本的な構造情報を導入するためである。実際の工学処理上、分かち書き、品詞付与、構文解析などの複数のツールの開発により、一つの言語にモデルを一つに統合し訓練すればよいことになる。更に高度なタスクに解析情報を提供でき、ツールの開発・保守の労力を低減できている。3.3人名地名の転写・翻字の自動処理実世界のテキストデータに、大量の人名・地名・専門用語が含まれている。特に多くのアジア言語はそれぞれ固有な文字体系を持っており、外来語の表記に揺れがある。日本語のカタカナ表記にも同じような問題があることに対して、東南アジア地域に使われるより複雑な文字体系において、この問題が更に深刻になる。現代社会で流行文化により外来語の移り変わりも加速しているので、単なる辞書の編集で問題の解決にたどり着けるのが困難である。この問題の解決には、データに基づくアプローチが求められる。前述したツリーバンクは言語の形態的・構文的な情報に注目することに対して、ここで言語の音韻的・正書法的な特徴に注目する。ASEAN地域の連携により、大規模な人名転写・翻字データセットを整備しつつある[7]-[9]。典型的な成果として、クメール語の文字・音韻構造を分析し、そのローマ字表記に関する研究[7](図2)は、「International Conference of the Pacific Association for Computational Linguis-tics」の「Best Paper Award」を受賞した。လိမ မညဟာheသူn-1nominativecase-markero-2Juneဇွနn3monthလn430၃၀15dayရကn6dayနန n7locativecase-markerတွငo-8Philippinesဖိလစပိငn9countryနိငငံn10ofရ o-11fifteen[a12presidentသမမတn14to be legalတရာဝငv15ဖဖစv[v16to becomeလာo-17to beginwillo-]v18.။.19ဆယင နယာကနဖမာကpronadpnounnounnumnounnounadpnounnounadpnumnounverbverbpartpartpunctpartNOUNNOUNNOUNVERBNOUNnounnounnounadjverbNOUNNOUNVERBROOTVERB-tho-]13図1言語学的情報付きの一例(ビルマ語)[5]。数字は分かち書き後の形態素の順番を示している。数字の下はそれぞれの形態素の英訳・解釈をつけている。数字以上の部分は各段により、NOVAの表記、形態素そのもの、更に詳し品詞情報、各レイヤの意味単位(木構造)。1កK2ូ O4__5ចCH6នN8ទTយY3រR10ូ A11្ @7្ @9@A@@図2クメール語の文字・音韻構造による分析例[7]。クメール語人名とローマ字表記を構成要素・文字単位に分解して、更に補助記号を挿入した。数字は両方対応している記号を示している。分かち書きのスペース(4番)も普通の一文字として扱う。クメール語側に楔形が示した記号二つとローマ字側の7番、9番の記号は対応付けのために挿入した補助記号である。このような分解・挿入・対応付けは、文字・音韻構造の事前知識を自動処理のために導入した。統計的なモデルはより簡単・正確に学習できるようになった。632-3-2 アジア言語処理

元のページ  ../index.html#69

このブックを見る