HTML5 Webook
71/194

はじめにブログ、ソーシャルメディア、電子掲示板などへ投稿される文章を指すユーザ生成テキストでは、標準的な表記法から逸脱した「崩れた」表記・表現が多用されることから、「整った」テキストを前提とする言語処理システムの精度が低下する問題が起こる。たとえば、図1のように、一般的な対訳コーパスで学習された機械翻訳システムでは、崩れた表記の文に対する適切な翻訳結果を出力できないことがある。何らかの自然言語処理タスク(目的タスクと呼ぶ)を実行する際、崩れた表記に対処する方法として、(a) 崩れたテキストを直接処理できるような目的タスクのモデルを学習する方法*1と、(b) 崩れた表記(以降、崩れ表記と呼ぶ)を標準的な表記(以降、正規表記と呼ぶ)に変換する正規化処理を事前に適用した上で、目的タスクの一般的なモデルを用いる方法がある。(b) の方法には、多様な崩れ表記への対応の問題と目的タスクの学習の問題とを分離することで、目的タスクのモデルに変更を加えずに様々なタスクへ正規化処理を応用できる利点がある。特に、ユーザ生成テキストの機械翻訳という目的タスクを考えた場合、日本語テキスト正規化を介することで、日本語から任意の言語への翻訳精度向上に貢献することが期待できる。本稿では、著者らが取り組んできた日本語のテキスト正規化の研究[2][3]を紹介する。日本語形態素解析・語彙正規化タスク日本語のテキストを処理する際、単語やそれに準じる処理単位であるトークンへ文を分割する処理が必要であり、その代表的な枠組みの一つが単語分割(自動12図1 崩れたテキストの機械翻訳結果(オンライン翻訳システムA,B)の例日本語まじむずかしいJapanese is really difficult.Japanese is difficult翻訳システムA【整った表記の文】【崩れた表記の文】日本語まぢムズカシイJapanese Majimu ZukashiiJapanese Majimuzukashii翻訳システムB翻訳システムA翻訳システムBソーシャルメディアやブログなどのユーザ生成テキストでは、標準的な表記法から逸脱した「崩れた」表記が多用されることから、言語処理システムの精度が低下する問題が起こる。本稿では、同問題に対処するための日本語の語彙正規化タスクについて解説し、著者らが取り組んできた二つの研究を紹介する。一つ目の研究では、語彙正規化のための評価用コーパスを構築・公開することで、従来及び将来のシステムの性能比較を可能とした。二つ目の研究では、疑似ラベル付きデータの生成法と、テキスト編集に基づく語彙正規化法を提案し、従来手法よりも高い正規化精度を達成した。Text normalization is important for overcoming the problem that non-canonical sentences in user-generated text degrade the performance of general natural language processing systems. This paper describes the authors’ work on Japanese text normalization that constructed a manually annotated evaluation corpus and proposed a normalization system based on text editing. The evaluation corpus can be a useful benchmark for comparing and analyzing existing and future systems. The proposed normalization system trained with pseudo labeled data outperformed an existing system.2-3-3 日本語テキスト正規化2-3-3Japanese Text Normalization東山 翔平HIGASHIYAMA Shohei*1(a) に該当する当研究室での研究として、ユーザ生成テキストの疑似対訳データを生成して機械翻訳モデルを学習したBenjaminらの研究 [1] がある。652 多言語コミュニケーション技術

元のページ  ../index.html#71

このブックを見る