RESEARCH
コーパスを用いた自然言語の研究 ー情報の受発信の支援に向けてー
井佐原 均(いさはら ひとし)
けいはんな情報通信融合センター
自然言語グループ グループリーダー


1978年   京都大学工学部電気工学第二学科卒業
1980年 同大学院修士課程修了同年通商産業省 電子技術総合研究所入所
1995年 郵政省通信総合研究所入所 自然言語処理、機械翻訳の研究に従事。 博士(工学)

井佐原 均

コーパスと言語研究
国際会議(ACL2003)でのコーパスの展示風景
国際会議(ACL2003)でのコーパスの展示風景
 人間の言葉を計算機に理解させるという試みは計算機が発明されると同時に始まったといえます。このような自然言語処理技術の研究開発によって、これまでに、形態素解析システムや構文解析システムといった基盤ソフトウェアや、仮名漢字変換ワープロソフト、機械翻訳ソフトなどのような私たちに直接触れるソフトウェアが開発されてきました。特に最近では、デジタルデバイドの解消に向けて、英語以外の言語を対象とする研究開発や、私たちが英語で情報を発信したり受信したりすることを支援するための研究開発も行われています。
 このような研究の特徴は現実の言語データを対象に行うという点にあります。以前は計算機の性能が処理速度の点でも、記憶容量の点でも不十分であり、大量データを取り扱うことは困難でしたが、現在では一般向けのノートパソコンですら、過去の大型計算機を超えるような十分な性能を持つものが現れています。

コーパスとは
 コーパスという言葉は聴きなれない言葉かもしれませんが、自然言語処理の分野では、大量の文を集め、コンピュータ上に蓄えたものを言います。ちなみに中国では「語料庫」と呼ばれています。元の文章は、新聞や小説などのような書き言葉で あったり、日常会話やインタビューといった話し言葉を書き起したものであったりします。日本語や英語といった単一の言語での文を集めたコーパスもあれば、英語の文書と日本語の文書を対訳の形式で蓄積した対訳コーパスもあります。医学分野の文書や新聞記事のように分野や対象を限定したものもあれば、ある時代のさまざまな文書をバランス良く集めたコーパスもあります。
 また、単に文章を集めただけのものだけではなく、そこに構文的・意味的などのいろいろな情報を付与したものがあります。このような情報を「タグ」と言います。付与する情報としては、形態素(品詞)情報、構文(係り受け)情報、談話情報、重要文情報、対訳情報などがあります。また、その文章の作者や作成日といった文書情報が付与されることもあります。

コーパスを用いた自然言語処理研究
 自然言語処理の基礎技術の一つに構文解析(係り受け解析)と呼ばれる技術があります。これは、文中のある要素が他のどの要素と関係を持つかを決める処理ですが、実際の文章では、曖昧性があって、簡単には決められないことがあります。構文解析の研究の初期においては、人間が計算機用の文法規則や辞書記述を作成し、それに基づいて計算機に言葉を理解させようとしていました。しかしながら、現実の言葉の多様性を網羅するような規則を作ることが難しいこと、また、新しい文書を対象とするたびに膨大な作成コストが必要となることなどから、現在では主としてコーパスを用いた研究が行われています。
 コーパスを用いた係り受け解析においては、まず文中の各要素が他の要素に係る確率を一つ一つ計算します。そして、全体として最も確率の高い組合せを採用します。この確率計算に、実際の大量の係り受け解析済のコーパスから得たデータを用います。

通信総合研究所におけるコーパス作成
図1 コーパスを用いた英文生成支援
図1
コーパスを用いた英文生成支援

 通信総合研究所では、研究用に公開されている読売新聞の日本語記事とThe Daily Yomiuriの英語記事を用いて約18万対の日英文対応と、約10万対の日英記事対応のデータを作成し、公開しました。これは研究利用が可能な日英対訳データとしては最大規模のものであり、既に国内外の30を超える機関に配布されています。
 図1は、日英対応のついたコーパスから私たちが英語の文章を書く場合に有効な情報を得る過程を示しています。ここでは「いかがなものか」という、通常の辞書では調べられないような表現を日英対応コーパスの日本語文章から検索し、日本語と英語の特徴語を表示し、英語の特徴語から「I」を選んで絞込検索を行うことにより、「I doubt」という表現を翻訳の候補として得る、という過程が示されています。通信総合研究所では、このような機能を組み込んだ柔軟な英文生成支援環境の開発を計画しています。
 また、通信・放送機構と共同で、日本人の英語発話のデータを収集し、コーパス化しました。これはACTFL/OPIに準拠したインタビュー形式の英語能力判定テストであるSST(Standard Speaking Test)の録音データを書き起し、言い直しやフィラー等の情報、誤り情報を付与したもので、SSTコーパスと呼ばれています。1200名(300時間)のデータが収集され世界最大級の学習者コーパスとなっています。図2にコーパス作成用のツールと実際のデータを示します。
図2 日本人の英語学習者コーパス(ツールとデータ)
図2
日本人の英語学習者コーパス(ツールとデータ)

終わりに
 通信総合研究所では、ここまで述べた以外にも幾つかのコーパスを作成し、内部での研究開発に利用するとともに、一般に公開しています。実際の言語データであるコーパスを用いることにより、実用システムに適用できる自然言語処理技術を開発するとともに、多くの機関で同一のデータを用いることにより、技術評価を客観化し、自然言語処理技術が健全に発展することを目指しています。
 


Web <通信総合研究所 自然言語グループ ホームページ>
http://www2.crl.go.jp/jt/a132/index.html