HTML5 Webook
136/194

チューニングとは事前学習で学習済みの言語モデルのパラメタを初期パラメタとして読み込み、個別の問題に関する学習データで追加で学習することをいう。この2段階処理の重要な点としては、より高品質な事前学習済み言語モデルを用いてファインチューニングするだけで、他の設定は変更せずとも、個別の様々な問題でより高い性能を得られるというものである。一般的に、質の高い事前学習済み言語モデルを作成するには、言語モデルの学習に利用するニューラルネットをより巨大にして、かつ、大規模で多様なテキストを用いて多くのGPGPUで大規模に事前学習を行う必要がある。このため、BERTが提案された後に、主に大規模GPGPUクラスタを保持する研究機関・企業によって事前学習手法の改良が進められている。近年の事前学習に関する取組としては、主にパラメタ数をより巨大にすることでより汎用的な言語モデルを構築する研究が進められている。例えば、英語についてはGPT-3[4]等、日本語についてもHyperCLO-VA[5]等の開発がなされているが、それらのビジネス化については、必要な計算パワーが膨大であり、運用コストが非常に高くなることやヘイトのような問題のあるテキストを生成するリスク等の問題等もあり未知数である。そこで、我々としては実運用上問題とはならないと考えられる規模の大規模言語モデル事前学習を実施し、そのモデルを我々が作成済み、もしくは問題によっては新規に作成する高品質な学習データでファインチューニングすることで、より実用化が容易な環境、設定で動く先進的なアプリケーションの研究開発を進めている。より具体的には、国立研究開発法人・情報通信研究機構(NICT)データ駆動知能システム研究センター(DIRECT)で研究開発した技術について、従来の機械学習アルゴリズムであるSVM[6]からBERTへ移行し、大規模Web情報分析システムWIS-DOM X*1の深層学習版を2021年3月末に公開した。また、今までは処理が難しかった自動生成系の問題において大規模言語モデルがうまく機能し、対話システム等の高度なアプリケーションでの積極的な利用が進んでいる。DIRECTでも、大規模言語モデルを用いて、次世代音声対話システムWEKDA[7]、マルチモーダル音声対話システムMICSUS(KDDI株式会社、NECソリューションイノベータ株式会社、株式会社日本総合研究所との共同開発)等の研究開発を行っている。上記のシステムは様々な深層学習の技術の複合的な組み合わせにより実現されているが、多くの部分問題は、例えば、「何で地球温暖化を防ぐ?」といった質問に対して与えられたテキストが適切な回答を含んでいるかといった分類問題と、例えば、ある質問と回答候補を含むテキストが与えられた時に、そのテキストをもとに、質問の簡潔な回答を要約されたテキストとして生成するといった生成問題に大別できる。このうち、分類問題に関しては、前述のBERTもしくはその拡張(RoBERTa[8]、ALBERT[9]、ELECTRA[10]、De-BERTa[11]等)を個別にファインチューニングすることにより、様々な自然言語処理の分類問題で高い性能を得ることができることが知られている。ただし、この技術が公開された当初は事前学習をどのようなテキストを用いて、どのような規模のニューラルネット、ハイパーパラメタで事前学習すべきかについての知見が少なく、NICT DIRECTでも試行錯誤を繰り返しながら日本語を対象とした高品質の巨大言語モデルの事前学習の構築に取り組んだ。また現在もより巨大で高性能な事前学習済みモデルを得るために継続して研究を実施中である[12]。この過程で得られた日本語Wiki-pediaに関するBERTBASEモデルはNICT BERT日本語Pre-trainedモデルという名称で一般に公開済みで3,500件以上もダウンロードされて広く利用されている。またBERTBASEモデルより巨大なニューラルネットを利用し、かつ、Web文書から得た質の高い大規模テキスト集合を用いて事前学習したNICT BERTLARGEモデルはDIRECTの各種システム中で各種分類問題を高性能に処理するために活用されている。公開版NICT BERTBASEとNICT BERTLARGEはほぼ同時期である2020年1〜2月に事前学習が完了しており、その後、NICT DIRECTの各種分類器等の研究開発で利用されている。また、MICSUSで音声認識エラーに頑健な処理を実現するため、通常の仮名漢字混じり文の入力に加え、単語の読み情報も入力可能にし、学習データにノイズを一定量加えて事前学習を実施したHBERTというBERTの改良版も作成している(HBERTについては本特集号3-5 [13]を参照)。本稿では、まずこのNICT BERTLARGEの構築とその評価結果について紹介する。また、DIRECTで対象とする生成問題には、WIS-DOM Xの回答(特に「なぜ」型や「どうやって」型の質問に対する長い回答)をWEKDAやMICSUSのような音声対話システムでコンパクトに提示するために、長い回答の要約を行ったり、また、Webテキストから音声対話で使える自然な発話を生成するといった課題がある。これらの生成課題に対しては、研究開発の当初はrecurrent neural network (RNN)を使用したEn-coder Decoderネットワーク[14]を利用していたが、そこからUniLM[15]やTransformerネットワーク[1][16]等のより質の高い生成結果が得られる技術へ移*1https://www.wisdom-nict.jp/130   情報通信研究機構研究報告 Vol.68 No.2 (2022)3 社会知コミュニケーション技術

元のページ  ../index.html#136

このブックを見る