HTML5 Webook
132/194

結果を示す。評価方法、データが異なるため、表2のBERTACとの直接比較は難しいが、学習データを増強したWISDOM X「深層学習版」は73.5〜83.0%という表2よりも高いP@1を示している。さらに、AR@3では89%以上の高い性能となっており、この結果はWISDOM X「深層学習版」に「なぜ/どうやって」型質問のいずれかを10回入力すると9回程度は上位3件以内に回答を見つけられることを意味する。現在、多様な形式の質問を考慮した更なる学習データの増強を実施しており、増強した学習データの利用やその他の技術の改良を行うことで更なる性能向上を目指す予定である。「どうなる」型質問応答我々は、言語によるコミュニケーションの最も重要な目的の一つが、ある出来事が生じた後、どのような出来事が生じるかの予測や、予測するための知識を社会において共有することであると考えている。こうした予測やそのための知識があるコミュニティで正しく共有されれば、そのコミュニティ自体やその構成員の生存はもとより、コミュニティ全体の繁栄につながるであろう。こうした予測やその共有を可能にする知識が「出来事Aが生じるならば出来事Bが生じやすくなる」ことを示す因果関係と呼ばれるものである。WISDOM Xの「どうなる」型質問応答は、まさにそのような因果関係に関する知識を、質問応答を通じてユーザに提示するものであり、Webページから抽出した因果関係を表現するテキストの巨大な知識データベース(以降、因果関係データベースと呼ぶ)を活用し、例えば「地球温暖化が進むとどうなる」という質問に対して「海水温が上昇する」のような地球温暖化という出来事が起こった結果を回答として、情報源となったWebページのURLと共にユーザに提示する。さらにユーザがその回答をさらに深堀りする質問を繰り返すことで、1に例示した様に、「地球温暖化が進む」→「海水温が上昇する」→「腸炎ビブリオ菌が増殖する」→「食中毒が発生する」のような潜在的に起こり得る因果関係の連鎖、つまり、一種の将来シナリオを発見することもできる(図7を参照)。この地球温暖化から食中毒につながる将来シナリオが科学的に確認された[1]ということは、どこにでもあるWebテキストを組み合わせて作成したシナリオが実際に未来の予測につながる価値ある内容を含み得ることを示している。高品質な「どうなる」型質問応答を実現するためには、その回答の知識源となる大規模で高品質な因果関係データベースが重要となる。従来版のWISDOM Xで利用されていた因果関係データベースの構築には、深層学習以前の機械学習アルゴリズムであるSVM [2]を利用した因果関係認識技術[16]が利用されていたが、そこでは因果関係の候補である〈名詞、助詞、述語〉の対(例:「地球温暖化が進む」と「海水温が上昇する」の対)とその対が出現している文全体(例:「地球温暖化が進むと海水温が上昇するのは当たり前だよね?」)を入力とし、更に多様な付加的な情報を背景知識として入力することで因果関係の抽出処理を実施していた。その後、我々が作成した高品質なBERTが利用可能になったことにより、そのBERTを利用した因果関係認識技術を開発した(詳細は下記で述べる)。さらに、因果関係に関する知識を獲得するための情報源であるWebテキストの規模をWeb60億ページに増やすことで、大規模で質の高い因果関係データベースを9千万件の規模で構築した。質問応答では、図8で表すように従来版WISDOM Xと同様に、ユーザが入力した質問から〈名詞、助詞、述語〉の組を抽出し、それらの意味的特性[17]を考慮しつつ、因果関係データベースの原因部分のテキストと柔軟な照合を行うことで、検索された因果関係の帰結部分をその周辺のテキストと共に回答としてユーザに提示する。BERTを利用した因果関係認識技術の研究開発には、従来のSVM [2]を用いた因果関係認識技術[16]を開発した際に作成した学習・評価データを利用する(この学習・開発・評価用データの件数は表5を参照)。ただし、従来技術では因果関係候補となる〈名詞、助詞、述語〉の対に加え、その対が出現した文や付加的な情報も利用していたのに対し、BERTを使った因果3図7 WISDOM Xの「どうなる」質問応答機能で発見できる因果関係のシナリオの例126   情報通信研究機構研究報告 Vol.68 No.2 (2022)3 社会知コミュニケーション技術

元のページ  ../index.html#132

このブックを見る