NICT NEWS
トップページ
リサーチ1 特殊光ファイバ用いた高効率スローライト光の発生
リサーチ2 日中機械翻訳システムの開発
リポート1 アウトリーチ活動報告群馬県立高崎高校
リポート2 平成18年度 NICT施設一般公開の報告
インフォメーション NICT新任理事の紹介
研究

 日中機械翻訳システムを開発

世界の知識を共有し、活用する未来
 科学技術が発展し、世界中が瞬時に情報を共有できるようになった現在、世の中に存在する様々な知識を活用できるかどうかが、個人の生活の充実を図る上で大きな影響を与えるようになっています。知識の多くは言葉によって表現されており、日本語・英語・中国語といった言語の違いが、知識の流通と利用の大きな妨げになっています。
 NICTでは、人間の言葉をコンピュータで処理する自然言語処理技術の高性能化によって、このような言語障壁を克服することを目指してきましたが、今回、科学技術振興機構(JST)、京都大学、東京大学、静岡大学の協力を得て、今年度から5か年計画で科学技術文献を対象とする日中機械翻訳システムを開発することになりました。この研究開発の一部は、科学技術振興調整費・重要課題解決型研究等の推進「日中・中日言語処理技術の開発研究」として実施されます。
中国、そしてアジアへ
図1日中機械翻訳システム
 欧米諸国と比べて、特にアジアにおいては英語での情報流通には困難が伴います。今回、アジア諸国の一員である我が国の責務として、アジア言語に関する機械翻訳の実現を目指し、その第一歩として、特に科学技術の進展が顕著である中国を対象に、科学技術文献を主たる対象とする機械翻訳システムの開発を行うこととしました。NICTではこれまで、中国、インド、東南アジア諸国との研究交流を進めており、将来的には広くアジア言語をシステム開発の対象に広げることを検討しています。今回開発するシステムの概念図を図1に示します。実際のシステムは日中・中日双方向のシステムです。
機械翻訳システム
図2 機械翻訳の各方式
 これまで、機械翻訳の実装には、変換方式や中間言語方式などが用いられてきました(図2)。変換方式(トランスファ方式)では、まず原言語で書かれた入力文を解析して、原言語の文法に沿った構文構造を得ます。この構文構造を、変換規則を用いて目標言語の構文構造に変換した後、目標言語の文を生成します。また、中間言語方式(ピボット方式)では、入力文をより深く解析し、言語に依存しない中間言語で記述された表現に変換し、その表現(構造)から目標言語の文を生成します。中間言語方式では、意味を理解した上で翻訳を行うため、自由な意訳が可能となり、自然な文を生成できますが、深い意味処理と、膨大な知識が必要となります。一方、変換方式では、多数の変換規則を記述する必要があり、特に多言語を扱う場合には、必要となる変換規則の組が膨大になってしまいます。いずれの方式も人手による様々な知識(文法規則、単語辞書、意味辞書など)作成が必要であり、そのような知識の一貫性を持った作成は非常に困難です。
 一方、人間が翻訳をするときには、このような知識を適用しているのではなく、過去に読み聞きしたことのある類似した文の訳を組み合わせて翻訳をしているだろうという考え方から、NICTの長尾理事長(当時 京都大学教授)が用例翻訳手法を1981年に提案しました。当時はコンピュータの能力が十分ではなく、この手法を実用的なシステムに実現することはできなかったのですが、近年、コンピュータの能力が向上したことに加え、文をそのまま例として使うのではなく、文法的に解析した上で入力文と蓄積された用例文の類似性を判定する手法(図3)が開発されたことにより、実用的な用例翻訳システムを開発する基盤が整ってきました。
図3 言語の構造をより深く考慮した用例翻訳
 用例翻訳では、膨大な対訳コーパスに含まれる例文と入力文の類似性を利用して翻訳します。ここで必要となるのは用例となる対訳コーパスと文同士の類似性を判定する方法であり、大規模な規則を作成する必要はありません。また、用例を追加することによって翻訳の質が向上すること、用例の訳には前後関係による訳の違いが自然に含まれており、機械翻訳の訳文にもそれが反映されること等の特徴があります。
実用システムの開発に向けて
 このプロジェクトは、5年間の開発期間で、日中の科学技術文献を対象とした実用的な機械翻訳システムを開発します。翻訳手法としては、言語の構造をより深く考慮した用例ベース翻訳を用います。この手法の実現のためには、大量の用例を蓄積する必要がありますが、NICTは1千万文規模の日中対訳コーパスを開発する予定です。基盤となる技術として、日本語や中国語の解析システムの性能向上を図ります。また、用例翻訳の手法を科学技術文献の長く複雑な文にも対応できるように改良を進めます。
 プロジェクトの途中段階でも、コーパス等の言語資源は可能な限り研究用に公開したいと考えています。また、アウトリーチ活動として、研究の内容や成果をできるだけ分かりやすく、広く発信していくことを目指します。
おわりに
 科学技術の目的は、あまねく人々に能力や地位にかかわらず平等に快適な生活を提供することにあります。私たちはコンピュータに言語を処理する能力を与えることにより、世界中の人々が言語障壁を意識せずにすむ環境の実現を目指しています。今回の機械翻訳システムの研究開発により、そのような目標の一端が達成できると期待しています。
井佐原 均(いさはら ひとし) 研究者:井佐原 均(いさはら ひとし)
知識創成コミュニケーション研究センター
自然言語グループリーダー
翻訳や語彙の研究に興味を持つ。1995年より通信総合研究所(現 情報通信研究機構)に勤務し、自然言語処理の研究グループを立ち上げた。外部の役職としては、アジア太平洋機械翻訳協会会長など。
暮らしと技術

Q:機械翻訳システムができると、どのように役立ちますか?
A:言語障壁のために中国国内のみで流通している有益な科学技術情報を、我が国の研究者・技術者・事業者が容易に活用することができるようになり、共同研究事業の設立など大きなビジネスチャンスにもつながるでしょう。また、日本が最先端を担う科学技術分野の文献が中国国内で流通することにより、中国における科学技術の発展も期待できます。
 さらに、他のアジア言語へも拡張することにより、それらの言語についても比較的容易に母国語で科学技術情報を検索・閲覧できるようになるので、アジア各国の科学技術文献情報がアジア地域全体で流通するようになります。


今月のキーワード[機械翻訳システム(Machine Translation System)]

機械翻訳システム(MT: Machine Translation System)とは、ある言語(原言語:例えば英語)で書かれた文を別の言語(目標言語:例えば日本語)に自動的に翻訳するコンピュータプログラムです。文章を翻訳するだけではなく、ホームページを体裁を保ったままで翻訳するシステムや、文中の難しい単語に訳を振るようなシステムもあります。
※参考URL(システムのリスト)
http://www.aamt.info/japanese/mtsys-j.htm
http://www.aamt.info/japanese/mtweb-j.htm

[コーパス(Corpus)]

例えば、新聞記事を1年分集めたものなどのように、文を集めたものです。ひとつの言語(例えば日本語)で書かれた文だけを集めたもの(単言語コーパス)や、複数の言語で書かれた文を集めたもの(対訳コーパス)、また、単に文を集めただけのものや、言語情報(名詞や動詞といった品詞の情報など)を付け加えたものなどがあります。NICTでは「言の場」というホームページを開設し、実際にコーパスの検索や利用ができるようにしています。
※参考URL
http://www.kotonoba.net/~snj/cgi-bin/wiki/wiki.cgi


次のページ
独立行政法人
情報通信研究機構
総合企画部 広報室
広報室メールアドレス
Copylight National Institure of Informationand Communications Technology.All Rights Reserved.
前のページ 次のページ 前のページ 次のページ