HTML5 Webook
77/194

4.4実験結果表7に3システムの単語分割精度(F1値)、品詞付与精度(F1値)、正規化精度(Precision,Recall,F1値)を示す。提案手法は、三つのデータAt,Ar,Adをすべて用いた場合に最良のF1値42.4を達成しており、異なる種類の疑似ラベル付きデータを用いることが有効であった。なお、提案手法について、2種類の後処理ルールSegPP及びNormPP*9を適用することでさらに精度が向上し、特に後者のルールによりPrecisionが15ポイント向上した。これは、簡易な後処理ルールが有効である一方で、モデルが不適切な正規表記を多く生成しており、改善の余地があることを示している。他システムと比較すると、提案手法は正規化精度(Recall,F1値)でMeCab+ERを上回り、より多くの崩れ表記を正規化できていることがわかる。対して、単語分割と品詞付与ではMeCab+ERが最良であり、この点については、同システムが崩れ表記の範囲を明示的に考慮していることが他の2タスクに有効であった可能性がある。提案手法でも同様の工夫を行うことで単語分割、品詞付与精度を改善できる余地がある。続いて、提案手法(表7の(iii)のモデル)とMeCab+ERのカテゴリ別の正規化精度(Recall)を表8に示す。提案手法はいずれのカテゴリでもMeCab+ERの精度を上回り、音変化、異文字種、代用表記について同程度の認識精度を達成している。誤表記の認識精度が低いのは、疑似ラベル付きデータに同カテゴリの事例がほとんど含まれていなかったためと考えられる。なお、三つの疑似ラベル付きデータAt,Ar,Adを訓練データとした場合に、テストデータ中の崩れ表記トークン767件のうち、訓練データに出現したトークンの割合は63%であった。これは、一度でも訓練データに出現した崩れ表記を正規化できる理想的なシステムのRecallに相当すると言え、提案手法(表7の(iv)のモデル)が達成した約38%から開きがある。また、訓練データに出現しなかった100-63=37%の未知トークンは、今回生成した疑似ラベル付きデータでカバーできなかった事例である。したがって、疑似ラベル付きデータの網羅性、モデルの学習能力の両方において改善の余地がある。4.5まとめ本節では、著者らが提案した疑似ラベル付きデータの生成法と、テキスト編集に基づく単語分割、品詞付与、語彙正規化の同時解析法について紹介した。語彙正規化では、異なる種類の疑似ラベル付きデータを組み合わせて学習に用いることで崩れ表記の認識精度が向上し、従来法以上の精度を達成できることを示した。本研究のより詳細な内容は文献[3]を参照されたい。おわりに本稿では、日本語テキストの語彙正規化の問題について解説し、著者らが取り組んできた評価用コーパス構築の研究と、単語分割、品詞付与及び語彙正規化の同時解析システムの研究を紹介した。今後の展望を以下に述べる。構築した評価用コーパスは、システムの性能評価に有用であるものの、現時点では2ジャンル(質問サイト、ブログ)で合計929文を収録した小規模なデータである。ユーザ生成テキストの様々なジャンルについてより精せい緻ちな評価を可能とするため、他ジャンルのテキストについてもアノテーションを行い、合計5ジャンル以上、1万文以上となるようにコーパスを拡大することを考えている。また、著者らが提案した語彙正規化システムは、従来手法以上の精度を達成したものの、現状の精度には5表8 2システムのカテゴリ別の正規化精度(Recall)カテゴリ件数MeCab+ER提案手法音変化41937.037.2異文字種2480.037.1代用表記13232.638.6誤表記230.04.4表7 3システムの単語分割、品詞付与、正規化精度システム疑似データ分割品詞正規化FFPRFMeCab92.190.3–––MeCab+ER95.092.855.925.835.3提案手法(i)At92.688.850.919.428.1(ii)At, Ar92.390.142.428.033.8(iii)At, Ar, Ad92.589.649.737.042.4提案手法+SegPP(iv)At, Ar, Ad93.590.550.837.843.4提案手法+NormPP(v)At, Ar, Ad93.590.565.836.647.1*9SegPPは、母音または特殊モーラの仮名文字(「ー」「っ」「ん」)が連続する場合にそれらのSegラベルを“I”に修正するルールである。NormPPは、予測された正規表記が所定の正規表記辞書(実験ではVdの正規表記を使用)に含まれない場合に正規表記の予測を取り下げる(元の表記そのままとする)ルールである。712-3-3 日本語テキスト正規化

元のページ  ../index.html#77

このブックを見る