92■概要令和3年度から開始された第5期中長期計画においてデータ駆動知能システム研究センター(以下DIRECT)では、インターネット等にある知識(社会知)を人間にとってわかりやすい形式で取得し、それらの組み合わせや類推等で仮説を推論する技術及び深層学習技術等を活用して社会知やそこから得られる仮説、目的やポリシー等を持つ仮想人格を用いてユーザの興味、背景や文脈にあわせて対話等ができる社会知コミュニケーション技術の研究開発に取り組んでいる。■主な記事社会知コミュニケーション技術の研究開発においてはBERT等の強力な巨大ニューラルネットワークが必要であることから、巨大なニューラルネットワークの学習、推論をそのアーキテクチャを問わず自動的に並列化し、複数のGPUを使って高速な学習を可能とする自動並列化深層学習ミドルウェアRaNNC(ランク)を高度化した。その結果、RaNNCを2,000億パラメータという巨大なニューラルネットワークを自動で分割し並列学習を容易に実現する世界で唯一のソフトウェアとすることに成功した。RaNNCはgithubにて公開(https://github.com/nict-wisdom/rannc)している。また、Facebook(現在はMeta)が主催するPyTorch Annual Hackathon 2021のPyTorch Developer Tools & Libraries部門にて第1位を獲得した。RaNNCはBERTのようなTransformer-baseのニューラルネットワークだけでなく、CNN等の多様なニューラルネットワークの学習も大規模化、高速化することができることから、社会課題の解決に貢献できると考えている。次に、社会知をインターネットから取得する技術として、膨大なWebテキストから「リハビリテーションで機能回復を図る期間が長期化することも多い→リハビリテーションは患者負担が増加する要因となる」のように文の間にある因果関係等の意味的関係を獲得する技術をBERT等の大規模言語モデルを用いて開発した。この手法の特徴は、文間の意味的関係を獲得すると同時に、それらの文で省略されている表現を補完することで、より完備していて、今後開発する推論、仮説生成等の処理で使いやすい意味的関係を獲得できることである。実際に、この技術を用いてWeb約200億ページから因果関係や矛盾、含意等の12種類の意味的関係に関して35億件以上となる世界最大規模の意味的関係知識を獲得した。この知識は、従来から我々が用いてきた一般的な因果関係のみならず、それを詳細化した解決策、目的、逆説関係等のタイプに区別されており、より精密な推論機構の実現や、仮想人格を持つ対話システムの開発につながる。また、このように獲得した膨大な因果関係等の意味的関係知識を超大規模言語モデルで学習することで、入力文に対して指定された文間意味的関係を持つ文を仮説として自動生成する技術を研究開発し、一定の範囲で仮説の生成出力を制御できるニューラルネットワークを構築した(図1)。同様に獲得した意味的関係知識を用いて、「リニアが奈良を通ったらいいよね」に対し「リニアが奈良を通ると京都の経済力が落ちるかもしれない」を出力するといったユーザの多様な入力に対して反論を生成する手法も開発した。生成結果を評価した結果を詳しく調査すると、人間の評価者によって不適切な反論と見なされた出力も補足説明を加えることで適切な反論と見なせるケースが多数(不適切と判定された反論の36%)図1 因果関係等の文間意味的関係知識を用いた仮説生成技術漁業に関心あり⾃動⾞産業に関心あり地球温暖化が進んでいるね地球温暖化が進んでいるね生物多様性が失われて農業や漁業が衰退することが危惧されていますね⾃動⾞産業ではCO2排出量を削減しなければならないという危機感がありますねこれらの応答はWebデータを検索して得たものではなく、実際に、ニューラルネットが生成したものであることに注意。今後学習データの増強でさらにバリエーションが増えると期待因果関係等の⽂間意味的関係知識を学習データとして⼊⼒⽂に指定された意味的関係を持つ⽂を仮説として生成する技術を研究開発。さらに生成出⼒を制御できるニューラルネットを開発→以下の例のように同じ因果関係の仮説でもユーザの関心に合わせて仮説を生成することが可能に3.4.2データ駆動知能システム研究センター研究センター長 大竹 清敬
元のページ ../index.html#100