HTML5 Webook
13/102

にそれぞれ対応すると考えると、推定された単語がシーンを適切に説明していることが見て取れる。私たちは、このモデルが様々なシーンにおいて、シーン記述に合致する形で意味認知内容の推定ができることを統計的に示した。また、シーン記述の個人差が大きなシーンほど、脳活動からの推定結果も個人差が大きくなることを統計的に確認し、このモデルが意味認知の個人差を反映可能なことも示した[3]。このモデルを用いた解読技術の利点は、1万単語という大きな語彙データを用いて意味認知内容を推定できるとともに、形容詞を含むことで印象内容も推定可能な点にある。類似した先行技術も存在するが、そこでは形容詞を含まない500単語未満の語彙データを用いているにすぎない[13]。実社会においてヒトが受容する意味情報は多種多様であり、私たちの解読技術の利点は、実社会における技術応用の可能性を広げている。実際、私たちはこの解読技術の実社会応用の1つとして、株式会社NTTデータと共同で、脳情報解読に基づく映像コンテンツの感性評価の事業化を2016年度に開始した(参考:NeM sweets DONUTs、http://www.nem-sweets.com)。この事業は、脳情報を用いた次世代ビジネスとして各界から注目されており、今後、更なる技術発展を目指し、研究開発を継続していきたい。2.3解読技術の拡張と脳融合型人工知能私たちの解読技術の実社会応用を進める過程で、様々な障壁も明らかになってきた。その1つが、fMRIの計測コストの大きさである。MRI装置は非常に高価であり、維持費及び利用料も高額である。また、多種多様な映像の誘発する意味認知内容を評価するためには、その分の被験者実験を行う必要があり、人的及び時間的コストも甚大である。そこで私たちは、脳情報解読においてfMRIの計測コストを大幅に削減する新技術の開発を行った[14]。この技術が従来の解読技術と異なる点は、計測したfMRI応答の代わりに、符号化モデルにより感覚入力から予測したfMRI応答を逆符号化モデルに入力して、知覚・認知内容を解読する点である。これにより、最初に数時間分のfMRI応答データを用いて符号化及び逆符号化モデルの学習を行った後は、追加のfMRI計測を一切要さずに、任意の感覚入力から知覚・認知内容を推定できる。こうして構築したシステムは、感覚信号を入力、知覚・認知内容を出力とする一種の人工知能システムとして機能するため、脳情報を融合した新しい形の人工知能とみなせる。図6は、この提案技術の実証実験で私たちが設計したシステムの概要である。このシステムでは、任意の映像入力からfMRI応答の予測を行う符号化モデルとして、最新の人工知能技術の一種である畳み込みニューラルネット[15]の内部表現を用いたモデルを利用した。畳み込みニューラルネットは、視覚物体のカテゴリ判別において高い精度を示す深層学習モデルの1つである。その内部表現は、fMRI応答予測に応用して高い精度を示すことが知られている[16]。符号化モデルの学習では、映像のフレーム画像を畳み込みニューラルネットに入力し、その際に得られる内部表図4 word2vecベクター空間を用いた逆符号化モデル図5 意味認知内容の推定結果例92-1 視覚と認知をつかさどる脳機能の定量的理解とその応用に関する研究

元のページ  ../index.html#13

このブックを見る