HTML5 Webook
142/194

質問と、その質問に対してDIRECTで開発された最新のノンファクトイド型の質問応答の回答パッセージ特定技術[26][27]等を利用して特定された、回答が含まれる可能性が高い、連続した文から成る回答パッセージである(この回答パッセージ特定技術については本特集号3-3 [25]を参照)。回答要約の課題はそのような質問と回答パッセージが入力として与えられた際に、「深層学習技術が導入されたため」のような、入力質問の回答に相当する簡潔で自然な日本語の文を出力するというものである。この回答要約では音声対話システム等で読み上げられることを想定して、最大でも25文字というコンパクトな要約を出力するという課題設計となっている。また、別の特徴としては、パッセージ内から内容語をコピーし、それを自然な回答となるように整形するという課題になっている。そういった意味では、パッセージに無い内容語を生成するという難しい問題は含まないが、一方で、入力の質問に関連する部分を特定しなければならないという難しさを含む。この回答要約のためにDIRECTでは独自に学習・評価用データを作成し[28][29]、回答要約技術の研究開発を行った。研究の初期段階(2018年5月頃)では、Point-er-Generator[30]と呼ばれる、RNN Encoder Decoderネットワーク[14]で、入力から必要に応じて単語列のコピーも行えるニューラルネットを利用して回答要約を行った[28][29]。その後、生成処理のためにも事前学習を実施した。具体的には、事前学習済みのBERTに対して更に生成用の事前学習を実施するUniLM[15]の事前学習手法を採用し、NICT BERTLARGEに対して生成用の追加学習を実施して、日本語版のUniLMモデルを作成した(2020年の3月に事前学習が完了)。このモデルに対して更に前述の回答要約に関する学習データでファインチューニングを行い、学習の結果得られた生成モデルを利用して「なぜ」型質問応答の回答要約の評価を行った。結果を表6にまとめる。回答要約の性能評価にはROUGEスコア[31]と呼ばれる正解単語列との単語の一致率に基づく評価尺度で評価を行っている。表中のROUGE-1、ROUGE-2、ROUGE-Lはそれぞれ単語uni-gram、bi-gram、最長一致に基づいた評価結果を表す。表6の結果から、以前のPointer-Generatorベースの手法[29]と比較してUniLMを用いることでより質の高い回答要約を生成できることがわかる。UniLMを用いた生成処理は、BERT、つまり、巨大なTransformerのエンコーダだけで構成されたニューラルネットで入力全体と出力された単語全体を生成の各ステップで全てエンコードするという負荷の高い処理を行うが、それは処理速度の面で問題となるため、効率的な生成のためにアーキテクチャの改善を行った。具体的には、通常のencoderとdecoderに分かれたTransformerアーキテクチャ[1]を利用し、Rotheら[16]と同様に、事前学習済みのBERTのパラメタをencoderとdecoderの初期パラメタとし*9 、生成用の学習を行った。ただし、Rotheらの場合はBERTのパラメタで初期化後すぐに本番の生成課題のファインチューニングを行っているが、我々の手法(以降、これをBERT EncDecと呼ぶ)では、NICT BERTLARGEのパラメタでencoderとdecoderを初期化した後に、さらに生成用の追加学習としてGoogle T5[32]と同様のencoderとdecoderをまたぐmasked LMに相当する学習(学習データの具体例は図3を参照)をWebから取得したテキストを使って約1億事例分学習するということを行っている。これにより、モデルのパラメタをより生成に適したパラメタに更新した上で、本番生成課題のファインチューニングが可能となる。また、decoderの層数もencoderと同じ24層にする代わりに、1層に変更することで更に高速化を図っている。(生成用追加学習データとして1億事例を利用し、decoderの層を1層にした場合の学習は2021手法ROUGE-1ROUGE-2ROUGE-LPointer-Generatorベースの手法[29]55.1540.9452.42UniLMLARGE63.2950.8162.53BERTLARGE EncDec (enc=24層/dec=24層)64.4551.9963.74BERTLARGE EncDec (enc=24層/dec=1層)63.8151.2363.18表6 「なぜ」型質問応答の回答要約の評価結果入力: 深層 学習 [MASK1] は 近年 注目 [MASK2] 集めて おり 、 高度な 技術 を持った 企業 が 最新 の [MASK3] 研究 成果 を 各種 サービス に 統合 する こと に [MASK4] て 意欲 的である 。 出力: [MASK1] の 技術 [MASK2] を [MASK3] 深層 学習 の [MASK4] 対し図3 BERT EncDecの生成用追加学習の追加事例の具体例(作例)*9decoderのcross-attention層はBERTには含まれないため、その層のパラメタはランダムに初期化している。136   情報通信研究機構研究報告 Vol.68 No.2 (2022)3 社会知コミュニケーション技術

元のページ  ../index.html#142

このブックを見る