HTML5 Webook
75/194

疑似ラベル付きデータの生成方法並びに両方法に基づく提案手法の評価について紹介する。4.1タスク定式化単語分割、品詞付与、語彙正規化の同時解析タスク(Word Segmentation, POS Tagging, and Lexical Nor-malization: 以降SPNと呼ぶ)は、文字xiの系列である入力文x=(x1, ..., xn)に対し、適切な単語境界、品詞及び正規表記を予測する問題である。たとえば、入力文 “日本語まぢムズカシー” に対しては、“日本”、“語” 、“まぢ” 、“ムズカシー” という単語列に分割し、単語列に “名詞”、“名詞”、“副詞”、“形容詞” という品詞列を割り当て、“NONE”、“NONE”、“まじ”、“難しい” という正規表記を割り当てられれば適切な予測となる(“NONE” は割り当てるべき正規表記がないこと、つまり元の表記のままでよいことを意味する)。本研究では、SPNタスクを、4種類のタグ列を予測する問題として定式化した。単語分割タグ(Segタグ)として、各入力文字に “B”(単語の先頭)、“I”(単語の内部)、“E”(単語の末尾)、“S”(単独で単語となる文字)のいずれかを割り当てる。品詞タグ(POSタグ)として、各入力文字に “名詞”、 “動詞” など事前に決められた品詞のいずれかを割り当てる。正規化については、入力文字列を正規表記に編集するための2系統のタグを定義し、各入力文字に、文字列編集操作タグ(SEditタグ)と文字種変換タグ(CConvタグ)をそれぞれ割り当てる。前述の入力文に対して予測すべきタグ列の例を図3示す。このようなテキスト編集の方法を英語の語彙正規化に適用した研究[13][14]もあるが、英語では文字の種類が英数字やアルファベットなど少数であるのに対し、日本語では漢字を含む数千種類の文字を扱う必要がある。そこで、2系統のタグセットSEdit、CConvと、仮名漢字変換の機構を組み合わせることで、120件程度のタグで正規化処理を実現可能とした。具体的には、SEditタグセットTseditを式(1)で定めた。Tsedit ={KEEP, DEL, INSL(c), INSR(c), REP(c)}・・・・・(1)各タグは記載した順に、「変更なし」、「該当文字を削除」、「該当文字の左隣に文字cを挿入」、「該当文字の右隣に文字cを挿入」、「該当文字を文字cで置換」を意味する。また、CConvタグセットTcconvを式(2)で定めた。Tcconv ={KEEP, TO_HIRA, TO_KATA, TO_KANJI}・・・・・(2)各タグは記載した順に、「変更なし」、「該当文字をひらがなに変換」、「該当文字をカタカナに変換」、「該当文字を含む単語全体を漢字に変換」を意味する。“TO_KANJI” タグについては、このタグが付与されただけではどの漢字に変換すればよいか一意に決まらないが、外部の仮名漢字変換器を用いて最も可能性の高い変換候補に変換することで対処する。例として、崩れた表記の単語を正規表記に変換するためのタグ列を表6に示す。なお、正規化を実現するための方法として、機械翻訳などの言語生成タスクの他、テキスト正規化の従来研究[4]でも用いられている系列変換(Sequence-to-Sequence)[15]の方法を採用することもできる。系列変換では、任意の入力トークン列を任意の出力トークン列へ直接変換する処理を行うが、出力トークンの種類が数千~数万以上と多いため大規模な学習データ日本語まぢムズカシーBESBEBIIIE名詞名詞名詞副詞副詞形容詞形容詞形容詞形容詞形容詞KEEPKEEPKEEPKEEPREP(じ)KEEPKEEPKEEPKEEPREP(い)KEEPKEEPKEEPKEEPKEEPHIRAHIRAHIRAHIRAKEEPxysypyeyc⇒まじ⇒むずかしい:::::図3 入力文xに対するSegタグ列(y   s),POSタグ列(y   p),SEditタグ列(y   e),CConvタグ列(y   c)の例表6 崩れ表記に対するSEditタグ列及びCConvタグ列の例崩れ表記正規表記SEditタグ列CConvタグ列まぢまじK, REP(じ)K, KムズカシーむずかしいK, K, K, K, REP(い)HR, HR, HR, HR, KすごーいーすごいK, K, DEL, K, DELK, K, K, K, Kさいこー最高K, K, K, REP(う)KJ, KJ, KJ, KJ“KEEP”,“TO_HIRA”,“TO_KANJI”タグをそれぞれ“K”,“HR”,“KJ”と略記した。692-3-3 日本語テキスト正規化

元のページ  ../index.html#75

このブックを見る