分かち書き)である。日本語の単語分割は、図2に示すように、品詞付与や活用・原形推定と合わせた複合的な処理である形態素解析*2として解かれることが多い。また、ユーザ生成テキストを処理する際には、単語レベルでのテキスト正規化を指す語彙正規化*3を同時に行うことで形態素解析精度も向上することが報告されている[5][6]。著者らの研究でも、単語分割、品詞付与、語彙正規化を同時に行う複合的な処理に取り組んでいる。日本語ユーザ生成テキストコーパスの構築日本語の語彙正規化の従来研究では非公開データでシステムを検証しているため、異なるシステム間の性能を比較したり、システム横断的な課題を発見したりすることが困難であった。そこで、著者らは、形態素解析及び語彙正規化の精度評価のためのコーパスを構築し、ベンチマークデータとして一般公開することで、上記の問題を解決することを目指した。具体的には、ブログ及び質問サイトの投稿テキストに対し、形態素(単語)情報と正規化情報を付与したコーパスBQNC(Blog and Q&A Site Normalization Corpus)を構築した*4。コーパスの構築は、次の三つの方針に基づき行った。一つ目は、コーパスを公開して第三者が利用可能とすることである。そのために、国立国語研究所のBCCWJ [7]に収録されているウェブテキストの原文に対してアノテーション*5を行い、アノテーション情報を公開することで、利用者が原文とアノテーション情報を入手してアノテーション情報付きデータを復元できるようにした。二つ目は、既存の代表的な単語分割基準及び品詞体系に準拠することである。そのために、国語研究所による多くのコーパスで採用されている短単位の基準に従いつつ、正規化を扱う際に問題となる事例を考慮して追加の基準を定義した。三つ目は、ユーザ生成テキスト特有の言語現象を評価・分析可能とすることである。そのために、ユーザ生成テキストに頻繫に出現する特徴的な事例を単語カテゴリとして分類・整理し、カテゴリ情報もテキストにアノテーションした。以降、本節では、著者らが分類した単語カテゴリの概要と、本コーパスを用いた従来システムの評価実験を紹介する。3駅に近くて便利でした駅に近くて便利でした名詞助詞形容詞助詞名詞助動詞助動詞駅に近いて便利ですた単語品詞原形⼊⼒文図2 入力文に対する形態素解析(単語分割、品詞付与、原形推定)処理の例表1 BQNCにおける単語カテゴリカテゴリ例正規表記語彙種別スラングコピペ固有名ドラクエオノマトペキラキラ感動詞おお方言ほんま外国語EASY顔文字・アスキーアート(^―^)異表記種別異文字種カワイイかわいい/可愛い代用表記大きぃ大きい音変化おいしーいおいしい/美味しい誤表記つたいつらい/辛い*2「形態素」は意味を有する最小の言語単位を指し、言語学的には単語よりも細かい粒度の単位である。ただし、日本語自然言語処理では形態素と単語を厳密に区別しないことが多く、(形態素または単語への)分かち書きを含む一連の処理を形態素解析と呼んでいる。*3以降、単に正規化と呼ぶ場合には語彙正規化を指すものとする。文レベルでのテキスト正規化の研究 [4] も行われているが、入力テキストのどの範囲をどのように変換したかという情報を得ることが難しい点が問題になり得る。*4本コーパスは次のサイトにて公開している。https://github.com/shigashiyama/jlexnorm*5原文テキストに、人間による分析や機械処理に有用な何らかの付加情報を付与することをアノテーションと呼ぶ。本コーパスでは、単語の区切りに相当する位置情報や、単語の品詞の情報などを付加情報として付与した。66 情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術
元のページ ../index.html#72