じて異なる重要な背景知識を大規模言語モデルの事前学習に利用するのは、事前学習自体の実行コスト、つまり必要な計算機と計算時間、が非常に大きいことから、現実的なアプローチとは言い難い。そこでDIRECTでは、個別の問題で重要となる背景知識をより低コストで、かつ、柔軟に大規模言語モデルに組み込むことができる新たな枠組みBERTAC(BERT-style TLM with an Adversarially pretrained Convolutional neural network)を提案した[6]。さらにこのBERTACを利用して「なぜ/どうやって」型質問応答技術を開発し、「深層学習版」のWISDOM Xに搭載した。BERTACを用いた学習では、事前に作成した背景知識に関するベクトルを出力する生成器と、通常の事前学習済み言語モデル、つまり、特定のタスクや特定のタイプの背景知識意識しない事前学習を実施したBERTを組み合わせて1つのネットワークを作成し、それを用いて最終的に処理を行いたい問題(例:「なぜ」型質問応答等)の学習を行う(図4:このような事前学習済みの言語モデルを用いた個別の問題に対する追加の学習をファインチューニングと呼ぶ)。より詳しくは、まず、大量のテキストから抽出した意味的関係の表現(例えば、上記例での因果関係「温室効果ガスが増える」(原因)→「地球温暖化を加速させる」(帰結)を表す言語表現)を用い、敵対的学習により背景知識のベクトル表現を自動生成する生成器[5][6]をそれ単体で事前に学習する。次に、図4に示すように、BERTの上段に設けたTIER(Transformer for Integrating External Representation)という特別なTransformer層を用いて事前学習した生成器から得た背景知識のベクトル表現をBERTの処理過程に組み込み、背景知識に関する情報を効果的に回答パッセージ特定等の最終的なタスクで活用する。BERTACについてさらに詳しく紹介するために、まず2.2.1で背景知識のベクトル表現を生成するための事前の学習について説明し、2.2.2でBERTACによる回答パッセージ特定について述べる。2.2.1敵対的学習による背景知識のベクトル表現生成器の事前学習敵対的学習は、学習対象の機械学習のモデルとそのライバルモデルを競合させ、モデルを強化する方法の一種である。なかでも近年注目されているのはIan Goodfellowが提案した「敵対的生成ネットワーク」(GAN: Generative Adversarial Networks)[4]で、主に画像生成・合成に活用されている。GANは学習対象の「生成モデル」とそのライバルの「識別モデル」(画像生成の場合は、入力された画像が生成モデルによって生成されたものなのか、あるいは、実在の画像なのかを識別するモデル)という2つのニューラルネットが互いに競争し成長していく学習方法で、この学習方法を用いることで、例えば、実存しないが実物のような画像を生成する「生成モデル」を学習することができる。AIが描いた作品「Edmond De Belamy(エドモンド・ベラミーの肖像)」*1は、GANの代表的な適用例である。DIRECTでは、GANを画像生成ではなく質問応答に適用し、敵対的学習を行うことで、入力の質問と回答候補のパッセージから背景知識のベクトル表現を生成する「背景知識のベクトル表現生成器」を開発した。この「背景知識のベクトル表現生成器」の学習では、前述のように、大量のテキストから抽出した意味的関係の表現を学習データとして用いる。より具体的には、「なぜ」型質問応答の重要な背景知識として知られている因果関係知識(例:「温室効果ガスが増える」(原因)→「地球温暖化を加速させる」(帰結))と、「どうやって」型質問応答で回答特定のための手がかりとなる道具・目的関係知識(例:「マスクを着用する」(道具)→「インフルエンザを予防する」(目的))をWeb40億ページから抽出して敵対的学習の学習データとして利用した。因果関係知識の抽出にはOhらの手法[12](「ため」、「ので」などの因果関係抽出用の手がかり単語で入力のテキストから因果関係を含む可能性のある文を抽出し、抽出した文における因果関係の原因部と帰結部をCRF(Conditional Random Field)で特定する手法)を用い、約1億件の因果関係知識を獲得した。次に約1億件の知識からランダムにサンプリングした100万件を学習データとし、図5の左側に示すように因果関係の帰結部に対してその原因部のベクトル表現を生成するように背景知識のベクトル表現生成器を学習した(学習の詳細は後述)。作成した背景知識のベクトル表現生成器を回答パッセージ特定に利用する際には、図5の右側に示すよう図4 BERTACによる回答パッセージ特定モデル*1https://obvious-art.com/portfolio/edmond-de-belamy122 情報通信研究機構研究報告 Vol.68 No.2 (2022)3 社会知コミュニケーション技術
元のページ ../index.html#128