公開している*3。また、より高品質なBERTモデルを構築すべく、DI-RECTではBERTLARGEのモデル(以降、NICT BERTLARGEと呼ぶ)の事前学習も実施している(ただし、NICT BERTLARGEは一般には公開していない)。事前学習時のバッチサイズやステップ数、最大系列長の設定、2段階による事前学習は上述と同じだが、事前学習に利用するテキストを日本語Wikipedia記事から大規模Webテキストに変更し、さらに、Webテキストの中でも、Ohら[17]の因果関係検出器を適用して特定された因果関係を含むテキストパッセージのみを対象に事前学習用のテキスト集合を作成、その結果、日本語Wikipediaの約100倍のサイズとなる350GBもの規模の学習データを作成して事前学習を行っている。我々が実施した予備調査の結果、この因果関係を含むテキストを事前学習へ利用することで、Wikipedia単体やランダムにサンプリングした同じ規模のWebテキスト集合を利用した場合よりも質の高いモデルが得られることがわかっており、後述する因果関係認識やファクトイド質問応答で性能が向上することを確認している[18][19]。特に因果関係認識はDIRECTで研究対象としている「なぜ」型、「どうやって」型の質問応答をはじめとする多くの問題に関連しており、そのため、その因果関係認識で性能が向上することで他の関連する問題においても同様に性能が向上することが期待できる。また、本特集号3-5 [13]で紹介する対話システムWEKDAで行う雑談発話は因果関係知識を用いた「どうなる」型の質問応答等を用いてユーザ発話に対するチャンスやリスクに関する応答を返すが、そこで利用される因果関係知識は因果関係認識の結果を利用して獲得されるため、そういった意味でも因果関係認識の性能向上は我々のシステム開発に直接的に貢献することになる。このように事前学習の設定を試行錯誤することで作成されたNICT BERTLARGEは深層学習版WISDOM X、WEKDAやMICSUSといったDIRECTが研究開発しているシステム内の様々な分類問題で利用されている。2.1NICT BERTの性能評価NICT BERT日本語Pre-trainedモデル公開時(2020年3月)に、その時期までに公開されていた日本語のBERTモデルとNICT BERTBASEを比較するために、DIRECTで過去に作成した分類問題のデータセットに適用して分類性能の評価を行った。比較に利用した日本語のBERTモデルの一覧を表2にまとめる。今回の研究報告では追加でNICT BERTLARGEについても評価を実施した。評価に利用した分類問題は、因果関係認識[18][20][21]、ファクトイド質問応答[19]、バイナリパタン間含意関係認識[22][23]、解答可能性付き読解[24]の4種類であり、いずれも自然言語理解を対象とする重要な課題である(各問題の概要については表1を参照)。評価では、比較用のBERTとの実験条件を揃えるために、同じ学習率等のハイパーパラメタ集合を探索し、それぞれ開発用データでベストな性能を得たパラメタをベストパラメタとして、そのパラメタに関して得られたモデルで評価用データの性能を評価した。ただし、因果関係認識[18][20][21]入力された〈名詞、助詞、述語〉の対とその対が係り受け関係で出現する文を入力し、与えられた句の対が因果関係となるか否かを判定する課題これまでの調査結果をまとめると、地球温暖化が進み、海水温が上昇し、さらにはその影響で海水中の有毒な微生物が増えることがわかっている。(太字箇所の「地球温暖化が進み」と「海水温が上昇し」の対が因果関係となるか否かを判定する)ファクトイド質問応答[19]入力された「なに」型の質問と回答となる名詞、その名詞を含む文の3つ組に対して、質問の回答がその文中に含まれるか否かを判定する課題質問: AIをどんな社会課題に利用する / 回答名詞: リモートワーク化 /文: コロナ禍の状況において重要となるリモートワーク化にAIを効果的に利用することが考えられる。バイナリパタン間含意関係認識[22][23]変数XとYを含む句の対(例: 「XがYで眠る」と「XがYにいる」の対)の間に含意関係が成り立つか否かを判定する課題彼が横で眠る → 彼が横にいる / 本人が目の前で眠る → 本人が目の前にいる / 親がそばで眠る → 親がそばにいる(XとYに入り得る語をそれぞれXとYに代入したものを複数個列挙して入力する)解答可能性付き読解[24]質問、回答、文書の3つ組に対して、文書の読解によって質問に答えることができるかどうかを判定する課題質問: 木下順二が執筆した『平家物語』を題材とした戯曲は何でしょう? / 回答: 子午線の祀り / 文書: 木下順二は1978年に『子午線の祀り』を発表した。この作品は『平家物語』に基づいて書かれたものであり、「群読」と呼ばれる独自の朗読形式を取り入れている。表1 BERT評価に利用した分類問題の概要(具体例はいずれも著者が作成した作例である)*3https://alaginrc.nict.go.jp/nict-bert/index.html132 情報通信研究機構研究報告 Vol.68 No.2 (2022)3 社会知コミュニケーション技術
元のページ ../index.html#138