HTML5 Webook
76/194

(数十万~数百万文)が必要となる点などが問題となり得る。テキスト編集の方法を採用する利点は、事前に決めた百種類程度のタグを予測できればよいことから比較的少量の学習データ(数万~数十万文)でのモデルの学習が可能と想定される点にある。4.2疑似ラベル付きデータの生成本研究では、崩れ表記vsと正規表記vtの異表記対集合Vを用いて、形態素解析済みテキストから疑似ラベル付きデータを生成する二つの方法、DS-TとDS-Sを提案した*8。異表記ペア集合Vの具体的な構築方法は後述する。生成する疑似ラベル付きデータは、崩れた表記の語を含む文(Source Sentence)xsrcと標準的な表記の語から成る整った文(Target Sentence)xtgtの対とみなせる。DS-Tでは、図4のように、V中の崩れ表記vsを含む入力文について、vsをその正規表記vtで置き換えることにより、実在の崩れた文から人工的な整った文を生成する(=ターゲット文が人工データ)。DS-Sでは、図5のように、V中の正規表記vtを含む入力文について、vtをその崩れ表記vsで置き換えることにより、実在の整った文から人工的な崩れた文を生成する(=ソース文が人工データ)。各方法で生成されたソース文とターゲット文の対は、ソース文と、ソース文をターゲット文に変換するためのSEditタグ列及びCConvタグ列の形式に自動変換された上で、(さらにSegタグ列とPOSタグ列を付加し)モデル学習の入力に用いられる。異表記対集合の構築には、辞書ベースの方法と、ルールベースの方法の2種類を用いた。辞書ベース異表記抽出法では、形態素解析用辞書UniDicを用いて、同一の語彙素(例:「大きい」)として登録されている表記の集合(例:「大きい」、「おおきい」、「おっきい」)を取得し、コーパス出現頻度や読み情報を基に崩れ表記と正規表記を決定し、異表記対を構成した。ルールベース異表記抽出法では、辞書ベース法で得た正規表記(例:「大きい」)に人手定義ルールを適用して崩れ表記(例:「大きーい」)を生成し、崩れ表記、正規表記ともコーパス中の(文字n-gramとしての)出現頻度が閾値10以上のものを有効な異表記対と認定した。なお、人手定義ルールとしては、Sasanoら[11]及びIkedaら[4]が定義したルールに追加のルールを加えた大分類10種類のルールを用いた。4.3実験設定4.3.1システム 3の実験と同様に、従来手法として、日本語形態素解析システム MeCabと、Sasanoらの手法を実装したシステムMeCab+ERを用いた。提案手法では、系列タグ付けタスクで用いられる一般的なニューラルネットワーク構造の一つであるBiLSTM(Bidirectional Long Short-Term Memory)[16][17]に、タグ種別(Seg, POS, SEdit, CConv)ごとのSoftmax推論層を追加したモデルを用いた。入力文は、文字ごとの特徴量ベクトルの系列に変換され、BiLSTMでの計算を経て各タグの確率分布ベクトルの系列に変換され、文字ごとに確率値が最大のタグが出力される。特徴量として、文字及び発音の分散表現ベクトルと、辞書マッチングに基づく数種類の2値ベクトルを連結して用いた。仮名漢字変換には、n-gram言語モデルに基づく仮名漢字変換器を実装して用いた。4.3.2実験データBCCWJコアデータを訓練データDt(5.7万文)と開発用データDv(0.3万文)に分割し、提案手法の単語分割と品詞付与タスクの学習に用いた。テストデータとして、3で述べたBQNCを用いた。辞書由来異表記対集合Vdとして、UniDicから抽出された異表記対候補のBCCWJ非コアデータDu(350万文)での出現頻度を計測し、頻度上位20万対を採用した。ルール由来異表記対集合Vrとして、Vdの正規表記とルールを適用して得られた崩れ表記候補について、Yahoo!知恵袋データ(880万文)でのn-gram頻度を計測し、頻度上位20万件を採用した。正規化タスクのための疑似ラベル付きデータとして、Dt,DuとVr,Vdを基に3種類のデータを生成した。一つ目は、辞書由来異表記対集合Vd を用いてDt にDS-Tを適用して得られたデータAt(5.7万文)である。二つ目と三つ目は、辞書、ルール由来異表記対集合Vd,Vrをそれぞれ用いてDuにDS-Sを適用して得られたデータAd(17.3万文)及びAr(17万文)である。3種類の疑似ラベル付きデータの一つまたは複数を用いて提案手法の正規化タスクの学習を行った。図5 DS-Sによる疑似データ生成の例図4 DS-Tによる疑似データ生成の例x=スゴく気になる(vs, vt) = (スゴく, すごく)xsrc=スゴく気になるxtgt=すごく気になるx=ほんとうに心配(vs, vt) = (ほんっと, ほんとう)xsrc=ほんっとに心配xtgt= ほんとうに心配*8 DSはDistant Supervision(遠距離教師あり学習)を意味する。70   情報通信研究機構研究報告 Vol.68 No.2 (2022)2 多言語コミュニケーション技術

元のページ  ../index.html#76

このブックを見る