3.1単語カテゴリの概要ユーザ生成テキストに特徴的かつ単語分割の誤解析を生じ得るという観点で著者らが分類した単語カテゴリを表1に示す。これらのカテゴリは、分類の粒度は異なるものの、従来研究[8][9]で報告されている現象とおおむね同等の現象をカバーしている。語彙的な種類の観点から7カテゴリに分けたものを語彙種別と呼び、異表記の発生過程の観点から4カテゴリに分けたものを異表記種別と呼び、各単語は何らかの語彙種別のカテゴリと何らかの異表記種別のカテゴリに同時に該当し得る。語彙種別の各カテゴリの共通の特徴は、新しい単語が際限なく生まれたり他言語・方言から借用されたりする点にあり、言語処理システムにとって未知の単語がテキストに出現した場合、誤解析の原因となる。異表記種別のカテゴリは、従来からある単語か新しい単語かにかかわらず、標準的な表記とは異なる表記で書かれた単語が該当し、そのような表記は無数に生じ得ることから、やはり誤解析の原因となる。具体的には、日本語の複数の文字種のうち規範的なテキストでの使用が稀である表記を指す「異文字種」(「可愛い」や「かわいい」に対する「カワイイ」など)や、口語の発音を再現したような表記を指す「音変化」(「おいしーい」など)、本来の表記と視覚的に近い文字を用いた表記などを指す代用表記(「大きぃ」など)、入力誤りなどによる「誤表記」の4カテゴリを定めた。3.2実験設定構築したコーパスの統計情報を表2に示す。本コーパスは、929文、延べ語数12,600単語から成り、何らかの異表記種別に該当する崩れ表記767件を含む。本コーパスを用いて、条件付き確率場(Conditional Random Fields)に基づく代表的な日本語形態素解析システムである MeCab [10]と、Sasanoらの形態素解析・正規化法[11]を著者らがMeCabを用いて再現したシステムMeCab+ER*6の二つの従来手法の精度を評価した。Sasanoらの方法は、人手定義した5種類の正規化ルールにより正規化を行う方法であり、たとえば、「冷たーーい」に対しては長音を削除するルールを適用することで「冷たい」が正規表記候補に追加される。両システムとも、短単位に基づくUniDic [12]の形態素解析用辞書(unidic-cwj-2.3.0)を用いた。UniDic解析用辞書にはBCCWJコアデータ等から成る訓練コーパスから学習されたMeCabのパラメータ値が含まれている。本実験では本コーパスを評価用コーパスとし、2システムについて追加の学習を行わず、ブログ・質問サイトのテキストに対してどの程度の解析精度を達成できるかを評価した。評価指標には、単語分割、品詞付与、正規化のPrecision(適合率)、Recall(再現率)、F1値を用いた。Precisionはシステムの予測のうち正解と一致したものの割合であり、システムの予測の正確さを表す。Recallは正解のうちシステムが予測できたものの割合であり、システムの予測の網羅性を表す。F1値はPrecisionとRecallの調和平均である。品詞付与の評価では、単語分割と品詞付与の両方に正解した場合にのみ正解とし、正規化の評価では、単語分割と正規化の両方に正解した場合にのみ正解とした。なお、本コーパスでは、一つの崩れ表記に対して一つまたは複数の正規表記を付与しているため、正解正規表記のいずれかに一致した場合に正解とした。3.3実験結果本コーパスにおける2システムの精度を表3に示す。2システムの単語分割及び品詞付与の解析精度はF1値90~95%程度であり、整った書き言葉と比べて解析が難しいと言える*7。MeCab+ERは、MeCabの単語分割・品詞付与精度からF1値2.5~2.9ポイントの向上を達成し、正規化との同時解析が有効であることを示している。同システムの正規化精度は他の2タスクに比べて大幅に低く、特にRecallが低い点は、ユーザ生成テキストに出現する多様な異表記に対して、使用した正規化ルールの網羅性が十分でないことを示している。実際、表4に示すように、MeCab+ERが正規化に成功した事例を含むカテゴリは、音変化と代用表表2 BQNCの統計情報媒体文数単語数(延べ)単語数(異なり)崩れ表記数(延べ)崩れ表記数(異なり)質問サイト3795,6491,699320221ブログ5506,9512,231447257全体92912,6003,419767420*6Sasanoら[11]のオリジナルの方法は、形態素解析器JUMANを拡張したシステムとして実装され、JUMAN品詞体系に対応している。*7たとえば、Kudoら[10]は新聞テキストに対する単語分割・品詞付与精度についてF1値98~99%と報告している。672-3-3 日本語テキスト正規化
元のページ ../index.html#73