本文へ
文字サイズ:小文字サイズ:標準文字サイズ:大
  • English Top

世界初のWeb情報分析システム“WISDOM”を開発、分析サービス開始

5億を超える日本語Webページに対する情報分析が可能に

  • 印刷
2010年8月9日

独立行政法人情報通信研究機構(以下「NICT」という。理事長:宮原 秀夫)けいはんな研究所知識創成コミュニケーション研究センターでは、5億を超える日本語Webページを対象に、発信者の分析、評価情報の抽出、対立する情報の抽出など様々な観点からの分析が可能なWeb情報分析システム“WISDOM”(Web Information Sensibly and Discreetly Ordered and Marshaled)を開発し、この度、“WISDOM”の分析サービスを正式に開始しました。

Web情報分析システムWISDOM: http://wisdom-nict.jp/

背景

現在、Webは仕事や日常生活の様々な場面において意思決定する際の重要な情報源の一つとなっています。ブログなどに代表される消費者発信メディアの普及により、多様な商品やサービスに関するクチコミ情報など、今まで得られなかったような情報が簡単に手に入るようになった一方で、不正確な情報や、偏った情報も流通しており、情報の信頼性を判断しつつ有効活用することが難しくなってきています。

今回の成果

今回、開発した情報分析システム“WISDOM”は、NICTが独自に収集した5億を超える日本語Webページを対象に、任意の話題に対して外観、発信者、内容という3つの観点からの分析を行うことができます。“WISDOM”にはNICTで新たに開発したWebのコンテンツを対象とした情報発信者分析技術評価情報抽出技術主要・対立・対比情報抽出技術が用いられています。これらの技術により、従来の検索エンジンでは難しかった、特定の話題に関する様々な立場の発信者の意見や対立する情報を俯瞰的に提示することで、多様な観点による偏りの少ない情報を元にした判断が可能となります。

これまでWebから評判情報を検索するシステムはありましたが、Webコンテンツを対象に、評価情報に加えて発信者や対立する情報など多様な観点から分析できるシステムは、“WISDOM”が世界初となります。

モニター評価における従来の検索エンジンとの比較

今後の展望

今後は、個別の分析技術の更なる精度向上を図るとともに、常に最新の話題に対応できるよう継続的に分析対象を更新していきます。また、現在は日本語だけを対象としていますが、今後は英語版及び中国語版の開発を進めていく予定です。

補足資料 推薦の言葉

国立国会図書館  館長  長尾 真 氏

「グーグル検索に何が欠けているかを、私がNICTの理事長をしていたときにいろいろと考えた。そこで浮かび上がってきたのは、検索上位の情報がどこまで 信頼できるものであるか、それらに対立するような情報がロングテールのどこかにないかどうか、といったことを自然言語処理技術で明らかにすることであっ た。そこで早速プロジェクトをスタートさせたが、それが今回のWISDOMという世界に類例のない素晴らしい成果となったことは誠に喜ばしい。多くの人に 使ってもらいたいものである。」

WISDOMの特徴

たとえばWEB上でどういう人々がどんなことを発信しているかを把握できます

WEB上でどういう人々がどんなことを発信しているか把握

WEB上に主にどのような情報があるのかが一目でわかります

WEB上におもにどのような情報があるのかが一目でわかります

検索結果中の発信者の分布や、発信者毎の意見の分布がわかります

検索結果中の発信者の分布や、発信者毎の意見の分布がわかります

様々な立場の発信者の肯定的・否定的な意見を読むことができ、分析対象に対する理解を深めることができます

WEB上でどういう人々がどんなことを発信しているか把握

用語解説

情報発信者分析技術

“WISDOM”では情報発信者を見つけるために、情報発信者抽出技術と情報発信者専門性分析技術を採用しています。情報発信者抽出技術とは、Webページを発信しているサイトの運営者や、ページ内のコンテンツの著者を、自動的に抽出する技術です。情報発信者専門性分析技術とは、ある情報発信者の特定のトピックについての専門性を分析し、専門性の高い順に順位付けする技術です。

評価情報抽出技術

評価情報抽出技術は、「この商品は優れている」、「あの制度には反対だ」というような意見や評価を自動的に抽出し、それが肯定的か否定的かの評価極性を判定する技術です。

主要・対立・対比情報抽出技術

主要・対立・対比情報抽出技術は、与えられたトピックに関してWeb上で主にどのようなことが言われているのか、さらに、それに対立、対比されていることがあるのか、ということを抽出する手法です。

<本件に関する 問い合わせ先>
知識創成コミュニケーション研究センター知識処理グループ
木俵 豊、加藤 義清

Tel:0774-98-6866
E-mail:

<取材依頼及び広報 問い合わせ先>
総合企画部広報室
報道担当 廣田 幸子

Tel:042-327-6923
Fax:042-327-7587
E-mail: