HTML5 Webook
74/194

記のみであった。続いて、2システムのカテゴリ別の単語分割・品詞付与精度(Recall)を表5に示す。いずれのカテゴリにも該当しない一般的な単語に対しては、両システムともに約98~99 %と高い精度を達成している一方、ユーザ生成テキストに特徴的である各カテゴリに対する精度はおおむね60~80%にとどまっている。MeCab+ERの精度はMeCabに比べて全般的に高い傾向があり、特にオノマトペ、異文字種、音変化について顕著に向上している。感動詞は、事例数が多いカテゴリでありながら品詞付与精度50%前後と低く、最も認識が難しいカテゴリの一つであると示唆される。これは、笑い声、泣き声、叫び声などを模した様々な感情の表現が臨時的に創造され用いられるために、新表現の多様性が大きいカテゴリとなっているという点が要因と考えられる。3.4まとめ本節では、著者らによる形態素解析・語彙正規化のためのユーザ生成テキストコーパス構築の研究について紹介した。本コーパスを用いた評価実験により、ユーザ生成テキストに特徴的な言語現象に対して従来システムの解析精度が低下することを示した。本コーパスは、従来及び将来のシステムの比較を可能にする公開ベンチマークデータとして機能すると期待できる。本研究のより詳細な内容は文献[2]を参照されたい。日本語語彙正規化のための疑似データ生成法とテキスト編集モデル    日本語テキストの語彙正規化タスクにおける課題として、モデルの学習に利用できるラベル付きデータがほとんどない点が挙げられる。著者らは、同課題に対処するための有望な方法として、対を成す崩れ表記と正規表記についての語彙知識を用いて、疑似ラベル付きデータを生成する方法を提案した。ただし、疑似的に生成したデータはノイズも含み、高品質なデータを大量に確保することは難しい。そのため、限られた量のデータから効率的に学習可能な方法として、テキスト編集に基づく方法を採用し、単語分割、品詞付与と語彙正規化を同時に解く方法を提案した。以降、本節では、本研究におけるタスク定式化方法、4表3 2システムの単語分割、品詞付与、正規化精度タスクMeCabMeCab+ERPRFPRF単語分割89.295.192.193.596.595.0品詞付与87.593.390.391.494.392.8正規化–––55.925.835.3表4 MeCab+ERのカテゴリ別の正規化精度(Recall)カテゴリ件数Recall音変化41937.0異文字種2480.0代用表記13232.6誤表記230.0表5 2システムのカテゴリ別の単語分割、品詞付与精度(Recall)カテゴリ件数MeCabMeCab+ER分割品詞分割品詞方言2391.378.395.782.6固有名10387.484.588.485.4オノマトペ21879.873.487.277.1外国語1478.678.678.678.6顔文字・アスキーアート27073.764.173.363.3感動詞17464.953.572.448.9スラング3767.667.667.667.6音変化41950.647.582.676.4異文字種24871.062.978.269.4代用表記13265.254.676.569.0誤表記2347.830.447.830.4いずれかのカテゴリに該当1,56568.961.979.670.4いずれのカテゴリにも非該当11,03598.997.798.997.768   情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術

元のページ  ../index.html#74

このブックを見る