NICT NEWS
トップページ
社会インフラとしての情報通信技術を支える 福永 香
玉石混淆のWebコンテンツ 木俵 豊
みんなの翻訳 内山 将夫
生きた細胞を用いた新しい分子通信解析手法の開発 小林 昇平
平成21年度新規採用者紹介
-トピックス- John L.Hall博士 NICT来訪
-トピックス- 受賞者紹介
-トピックス- 平成22年度パーマネント総合職員採用情報
リサーチ

玉石混淆のWebコンテンツ 情報信頼性分析エンジン“WISDOM”の紹介 知識創成コミュニケーション研究センター  知識処理グループ グループリーダー 木俵 豊

玉石混淆のWebコンテンツへの対応

現在は、情報の利用者であった一般の人々がブログ等で情報発信することで情報が爆発的に増加した「情報爆発の時代」と呼ばれています。一般の人々が容易に情報発信できるブログやSNS(Social Network Service)をCGM(Consumer Generated Media)と呼び、CGMによって多くの人々が情報発信することで「集合知」が形成されつつあります。このような変化は、従来のWebの進化の延長上ではない新たな質的な変化が起こったものという意味でWeb2.0と呼ばれています。しかし、このようなCGMによって爆発的に増えた情報によって新たな問題が発生しています。
 Googleに代表される一般的な検索エンジンは、検索キーワードによってWebコンテンツが検索されますが、内容の妥当性を考慮してランク付けをしているわけではありません。検索結果リストの上位だからといって必ずしも質の良い情報とは限らないのです。そのため、検索結果リストから信頼性や価値の高い情報を見つけ出すことは利用者の責任になっています。しかし、検索エンジンに検索キーワードを入力すると、ヒットするページが百数十万ページにもなる現状では、あまりの量の多さに「誰が書いている内容なのか」「同等の意見はどれくらいあるのか。また、逆の意見はどのようになっているのか。」「きちんとしたポリシーで制作されたものなのか」などを把握し、信頼性や価値の高い情報を見つけ出すことは非常に困難になっています。
 その結果、一般の人々は検索結果リスト上位数ページの内容を見て同じような記述であれば、それが正しい情報として信じてしまうといったことが起こっています。

WISDOMの全体像

NICT 知識創成コミュニケーション研究センター知識処理グループでは、玉石混淆のWebコンテンツの中から「信頼性や価値の高いWebコンテンツをどうやって見つけるのか」という課題を解決するための情報分析技術の研究を進めています。
 ブログで一般の人々が記述する情報(例えば、「○○はダイエットに有効」など)の信頼性や価値の高さを判断する場合には、ユーザーの価値観によるところが大きく、ただ単に「科学的には証明されていないので信頼できない」という結果を出力したとしても、ユーザーは満足しないでしょう。「そのブログは誰が書いているのか」「良いという情報と悪いという情報の分布はどうなっているのか」「関連するWebページには、主にどんなことが多く書かれているのか。また、対立するような内容としてどのようなものがあるのか」等を明らかにしたいというのが一般的なユーザーの要求であると考えられます。そこで、知識処理グループでは、Webコンテンツに含まれる文書情報を高度な言語処理技術に基づいて分析する情報分析技術と、それらを用いて、従来の検索エンジンと同様の手軽さで利用できる情報分析エンジンWISDOM(Web Information Sensibly and Discreetly Ordered and Marshaled)を研究開発しています。WISDOMの概要を図1に示します。また、システム構成を図2に示します。
 WISDOMは、ユーザーが調査を希望する事柄を検索エンジンのキーワードに相当する分析対象キーワードもしくは分析対象文として入力すると、それを検索エンジンTSUBAKI(注)に送り、関連するWebページを探し出します。その後、Webページの外観や内容、発信者について分析を行い、その結果を出力します。このような分析を実現するために、私たちは次のような技術を開発しています。

図1●WISDOMの概要

【分析データ基盤の開発】

WISDOMを開発するにあたり、既存の検索エンジンの検索結果を使うのではなく、自らクローリング(Webデータの収集)を行い、Webページを蓄積することで、より詳細な分析を実現しています。分析のためのデータ基盤として、これまでに約7億ページを収集しており、その中の1億ページを対象として情報分析技術の研究開発を進めています。このデータ基盤をTSUBAKIと共用することでシームレスな連携と高速な分析処理を実現しています(図2(a))。

図1●WISDOMのシステム構成

【主要・対立文の分析】

関連するWebページの中から高頻度に出現する言語表現として名詞句と述語項構造(文)を抽出します。抽出した主要表現と対立表現を同時に提示することで分析課題に対してどのような事実や論点があるかを示します(図2(b))。

【評価表現の分析】

Webページの中には、文章として様々な意見や評価情報が含まれています。我々は、それぞれの評価情報を六つのタイプ及び極性(肯定・否定)に分類し、機械学習の手法を用いて分類する手法を研究開発しています(図2(c))。

【発信者の分析】

Webページの発信者を内容や公開に責任を持つ人物や団体ととらえ、著者だけでなく引用先やサイト運営者などを6種類のタイプに区別して発信構成として、それらを分析して分類します(図2(d))。
 図3にWISDOMの利用例を示します。

図3●WISDOMの情報分析例

新たな情報利活用基盤技術の構築に向けて

先に紹介したようにWISDOMはWebページの内容を分析して、ユーザーがWebの情報を正しく利用できる手掛かりとなる情報を提供することを目的としています。ユーザーが調査したい内容がどのような偏りを持ち、対立するどのような意見があるのかを明らかにすることで、対象とする情報の信頼性を判断することにつながると考えています。
 また、このような情報分析技術は様々な場面で利用することが可能です。例えば、知識創成コミュニケーション研究センター音声言語グループと共同で開発している音声対話システムにも、WISDOMの評価情報分析機能が使われており、京都観光を想定した場面で評判の良い名所を紹介することにつながっています。
 なお、現在WISDOMは、開発途上のβバージョンを試験的に公開(http://wisdom-nict.jp/)しています。現在のバージョンは、過去のWebアーカイブを対象としているため分析結果は少々古い内容が出力されますが、今年度中の本格的な公開を目指して定常的なクローリングや、更なる分析結果の高精度化などを実現すべく研究開発を進めています。ぜひアクセスしてみてください。

(注)文部科学省科学研究費補助金(特定領域研究)「情報爆発時代に向けた新しいIT基盤技術の研究開発」にて、京都大学で開発されている自然言語処理を特徴とする検索エンジン

Profile

木俵 豊 木俵 豊(きだわら ゆたか)
知識創成コミュニケーション研究センター 知識処理グループ グループリーダー
大学院修士課程修了後、(株)神戸製鋼所を経て、2001年通信総合研究所(現NICT)入所、ユビキタス・コンテンツ技術の研究開発に従事。2006年内閣府総合科学技術会議事務局に出向。2007年から現職。現在は情報信頼性分析技術、ナレッジクラウド構築技術の研究開発に従事。博士(工学)。

独立行政法人
情報通信研究機構
総合企画部 広報室
広報室メールアドレス
Copyright: National Institute of Information and Communications Technology. All Rights Reserved.
NICT ホームページ 前のページ 次のページ 前のページ 次のページ