のステップ数)を保ちつつ、モデルサイズをより大きくし、かつ、学習に利用するテキストを選別しつつもより大規模にすることが重要であることがわかる。また、因果関係認識については、BERTの事前学習の性質を調査するために、追加で入力を変更した場合についても実験を行った。表1に示すように、オリジナルの問題設定では因果関係の候補となる句の対が出現している文も含めて入力とし、分類対象となる句の対とそれ以外の単語の位置を追加のembeddingで区別するということを行っているが、この入力に加えて、因果関係の背景知識に相当する入力も加えた実験も実施した。ここでいう背景知識とは、例えば「地球温暖化が進む→海水温が上昇する」のような因果関係を考えた場合の「地球温暖化」と「海水温」をつなぐ「地球温暖化で海水温が上がる」のような言語パターンや「地球温暖化」と「海水温」と「ため」のような手がかり表現を含む1文等の入力された因果関係(の候補)を捉えるための付加的な情報をいう。我々の過去の研究[20][21]では、このような背景知識を収集し、SVM[6]と呼ばれる深層学習以前の機械学習アルゴリズム、もしくは、convolutional neural network (CNN)と呼ばれる事前学習を利用しないニューラルネットの追加の入力とすることで性能が向上することを確認している。今回の実験でもその実験と同様に、入力の1文全体に背景知識(言語パターンと1文の検索結果)を単純につなぐことで1つの長い入力単語列を作成し、それをBERTへ入力して実験を行った。この実験でNICT BERTLARGEを用いた場合の結果を表4に示すが、この結果からBERTへ背景知識を入力した場合には性能が低下することがわかる。また、上記の実験に加え、1文全体の入力のうち冗長だと思われる箇所を除外してBERTへ入力する実験も実施した。具体的には、1文全体を入力するのではなく、「地球温暖化が進む [SEP] 海水温が上昇する」のような、因果関係認識で着目している原因候補の句と帰結候補の句の対のみを入力とし、NICT BERTLARGEを用いて実験を行った。この実験結果も表4に示すが、1文全体を入力した場合と比較して句の対だけを入力した場合のほうがより性能が良くなっていることがわかる。深層学習、特に事前学習が流行する以前のアプローチでは、背景知識のような入力テキストに書かれていない情報や1文全体から得られる情報等をいかに効果的に処理に取り込むかが重要な研究の観点であり、因果関係認識の既存研究[20][21]でも実際にそのような処理を導入することで性能が向上していたが、表4の結果そのようなことを考慮せずとも問題によっては高い性能が得られることを示しており、これはつまり人間の内省に基づいて考案していた付加的な背景知識等の情報でさえ事前学習によって学習されてしまっているかのように見える。一方で、本特集号3-3 [25]では、「なぜ」型質問応答の回答パッセージ特定においてより洗練された背景知識の利用に関する手法[26][27]が紹介されており、この手法を用いた場合にはBERTを利用した場合であっても背景知識を利用することで性能が向上することが報告されている。この手法では、単純に背景知識に相当する単語をBERTの入力に加えるのではなく、あるCNNをBERTとは独立に事前学習し、入力に対して背景知識に相当するベクトルを出力できるようにしておき、その出力をBERTの出力と統合して利用するということが行われており、そのような処理を行った場合には少なくも回答パッセージ特定においては背景知識が性能向上に貢献している。このようにBERTでの背景知識の利用一つとっても技術的に深堀りする余地があり、我々は今後もそのような観点からも研究を続けていく予定である。また、上記のBERTの品質向上に関する調査の更なる発展版として、言語モデルをより巨大にすることによる性能限界の調査を現在実施している。具体的にはRaNNC[12]を用いて200億パラメタというより巨大なBERT(NICT BERTLARGEのパラメタ数約4億の50倍)の事前学習を進めている。現時点の学習段階のモデルをファインチューニングした場合であっても上述の因果関係認識でNICT BERTLARGEと比較して性能改善が見られ、言語モデルの更なる巨大化によって更に性能が向上する見込みがあることが確認できている。ただし、ありとあらゆる言語的な知識が巨大モデルに蓄積できる可能性は低いと考えており、大規模言語モデルと他の知識の効果的な併用等も今後の研究課題となる。生成問題におけるNICT BERTの利用NICT DIRECTでは、様々な話題に対してユーザが関心を持ちそうな情報を適用し、ユーザの知識を深め、知的視野を広げることを目的とした「雑談」を行う音声対話システムWEKDA[7]を研究開発している。また、その「雑談」の機能はマルチモーダル音声対話システムMICSUSでも利用されている。(WEKDAとMICSUS3入力フォーマットF1平均精度1文全体64.8470.441文全体+背景知識[21]63.5569.55原因、帰結候補の句の対67.2574.44表4 因果関係認識:入力フォーマットの違いによる性能評価134 情報通信研究機構研究報告 Vol.68 No.2 (2022)3 社会知コミュニケーション技術
元のページ ../index.html#140