も行い、背景知識のベクトル表現生成器の学習における敵対的学習の有効性を確認している。また、BERTACに使われた因果関係と道具・目的関係の2つの背景知識のベクトル表現の生成器がそれぞれどの程度性能向上に貢献するかを調査するため、Ablation testを行いそれぞれの生成器をBERTACから除いた場合の性能を評価した。表3にその結果を示すが、2種類の生成器のいずれかを除くと性能低下が見られるため、2種類の生成器がともにBERTACの性能向上に貢献しているといえる。現在公開中のWISDOM X「深層学習版」は、「なぜ」型質問応答と「どうやって」型質問応答それぞれの更なる性能向上のために、各々約20万件の質問・パッセージ対から成る学習データ(表1の約10倍以上で合計40万件以上)を構築し、それらのデータで学習したBERTACのモデルを用いて回答パッセージ特定を行っている。この学習データを利用した性能評価のため、まず、DIRECTで作成した200件の「なぜ」型質問と200件の「どうやって」型質問を現在公開中のWISDOM X「深層学習版」の質問として入力して各々の質問に対する上位3件の回答パッセージを収集した。次に3人のアノテータが入力の質問で得られた回答パッセージに適切な回答が含まれているか否かを判定し、最後に多数決で正解ラベルを決定した。性能評価には、表2、3と同様に質問ごとの最上位の精度「P@1 (Precision at top answer)」と、また、上位3位以内に適切な回答を含む比率を表すAR@3を評価尺度として用いた。表4に「なぜ/どうやって」型質問応答の性能評価の「なぜ」型質問応答「どうやって」型質問応答質問数パッセージ数質問数パッセージ数学習データ85017,0001,00020,000開発データ100 2,000200 4,000評価データ50010,0001,20024,000合計1,45029,0002,40048,000表1 「なぜ」型、「どうやって」型質問応答の性能評価に使われたデータセット「なぜ」型質問応答「どうやって」型質問応答P@1MAPP@1MAPBERT63.861.455.155.2BERT+背景知識のベクトル表現64.261.956.055.4BERTAC68.062.558.856.6表2 「なぜ/どうやって」型質問応答の比較実験の結果「なぜ」型質問応答「どうやって」型質問応答P@1MAPP@1MAPBERTAC68.062.558.856.6因果関係の生成器を除いた場合67.062.457.755.9道具・目的関係の生成器を除いた場合66.862.057.356.5表3 因果関係と道具・目的関係の生成器に対するAblation testの結果「なぜ」型質問応答「どうやって」型質問応答P@1AR@3P@1AR@383.092.573.589.0表4 WISDOM X「深層学習」の「なぜ/どうやって」型質問応答の精度1253-3 大規模Web情報分析システムWISDOM X深層学習版
元のページ ../index.html#131