目的として研究開発を進めている。また、より長期的には、我々はそうした技術を発展、融合させることで、2030年ごろには、膨大な社会知を活用し、多様な話題に関して人間とブレインストーミングを行い、適切な意思決定やイノベーションを促進することができる対話システムの開発を目指している。本稿では、この社会知コミュニケーション技術の概要やその狙いについて説明する。近年のAI、自然言語処理における深層学習の動向 社会知コミュニケーション技術の根幹は、人工知能(AI)に関する技術のうち人間が用いる言葉やその意味を知的に処理する自然言語処理技術と呼ばれる技術である。近年広く知られるようになった深層学習(deep learning:ディープラーニング)と呼ばれる技術がAIの様々な課題に対してこれまでの最高精度を更新する結果を出すようになってから、深層学習はその技術を支えるハードウェアの発展とあわせてAI研究の必要不可欠な要素となった。自然言語処理技術においても、こうした深層学習の発展の恩恵を受けている。代表的な事例が、Googleが発表した巨大ニューラルネットBERT [1]であるが、これは自然言語処理における様々なタスクで過去最高の精度を達成し、その有用性を世に知らしめた。その後、様々な亜種も提案され、現在は、自然言語処理の分野において非常に良く用いられるニューラルネットの一つとなっている。BERTの特徴は、事前学習とファインチューニングという二段階の学習を行うことである。従来のニューラルネットを用いた自然言語処理では、質問応答等、特定のタスクのための学習データ(教師データ)を使って学習(教師あり学習)を行い、そのタスクだけを実行できるニューラルネットを構築していた。この際、学習データは通常、人間の作業者が作成していた。例えば、質問応答を行うニューラルネットを開発したければ、作業者が大量の質問と、あえて誤った回答も含め、その回答の候補を作文し、質問とそれら回答候補をペアにした上で、回答が質問の適切な回答になっているかどうかをラベルとしてペアに付与し、それを質問応答のための学習データとして利用していた。一方、BERTの一段階目の学習、すなわち、事前学習では、インターネット等にある膨大なテキストデータを用いて、上記のような人間による学習データ作成の作業をせずに学習(教師なし学習と呼ぶ)を行う。BERTの事前学習では、典型的には、膨大なテキストデータの単語を一部削除して、いわゆる「穴埋め問題」を大量に作成し、その穴埋め問題で正解となる削除された単語を当てるというタスクで学習を行う。こうした穴埋め問題は完全に自動で作成できるため、膨大なテラバイト単位のテキストデータであっても学習で活用できるわけである。一見、こうした穴埋め問題で学習すると一体何が学習できるのか訝いぶかしく思われるかもしれないが、BERTのようなニューラルネットはこうした穴埋め問題を介して、言語の多岐にわたる性質、構造等を学習できることがわかっており、また、そうした性質、構造等をあらかじめニューラルネットが持っていることによって、その後行われる二段階目の学習、つまり、ファインチューニングの効果が高められ、最終的に高い精度が達成できることになる。こうした事前学習済みのニューラルネットは、非常に大雑把な言い方ではあるが、言語の性質を学習済みであることから言語モデルもしくは、大規模なニューラルネットであることから大規模言語モデルと呼ばれることもある。第二段階の学習であるファインチューニングでは、質問応答等の個別のタスクごとに(典型的には人間の作業者がテキストデータへのラベル付等の作業をして)用意した学習データを用いて、事前学習済みのニューラルネットに対し追加で学習を行う。また、一般により大量のデータでより大量のパラメータをもつ巨大ニューラルネットで事前学習をすれば、ファインチューニング用の学習データが少なくとも高い精度を得られると言われている。これは、同等の精度を達成するのに、人間による学習データ作成作業を減らすことができるということであり、この考えをある意味極限まで推し進めたのが、BERTの514倍*1のパラメータをもつ、GPT-3 [5]のような超巨大なニューラルネット、超大規模言語モデルである。これらの超大規模言語モデルは、人間が作成した大量の学習データなしで、タスクの説明のみ(Zero-shot)やタスクの説明と少量のデモンストレーション*2(Few-shot)を与えてタスクを実行することが可能であり、タスクによっては極めて高い精度を達成している。また、これらの超大規模言語モデルの出力はテキストであり、なかには人が書いたとの区別がつかないような高品質なテキストが出力されるといった事例も多々報告されている。様々なタスクをそのための大量の学習データ(教師データ)なしにこなすことが可能な万能モデルという2*1 BERTLARGEは3.4億パラメータ、GPT-3は1,750億パラメータを有する[4]。*2GPT-3のZero-shot/Few-shotという用語は一般的な機械学習で用いられる用語とは異なり、GPT-3に与えるデモンストレーションの量で区別して用いられる用語である。なお、GPT-3では、Few-shotとしてデモンストレーションが与えられてもモデルのパラメータ更新は行われない。108 情報通信研究機構研究報告 Vol.68 No.2 (2022)3 社会知コミュニケーション技術
元のページ ../index.html#114