HTML5 Webook
19/112

する脳活動から、対応する特徴表現を予測する。また同時に、word2vec特徴空間には数万単語の特徴表現も存在する。脳活動から予測した特徴表現と各単語の特徴表現の類似度を評価し、類似度が高い単語ほどそのシーンから受ける意味認知内容に近いとみなして、類似度の高い単語を列挙することで意味認知内容を解読する。図6に、ある映像シーンにおける解読結果の例を示す(シーンの画像は著作権上の理由によりイラスト化)。ここでは1万単語の中から選択された類似度の最も高い単語を、名詞、動詞、形容詞に分けて7個ずつ列挙した。名詞、動詞、形容詞はそれぞれ物体、動作、印象の意味認知内容に相当する。予測された単語はいずれもシーンの意味内容を適切に表現していることが見て取れる。実際に、様々な映像シーンを用いた統計学的な検証においても、解読結果は映像シーンの意味内容を反映していることが示された[14]。この脳解読技術では1万単語を使って意味認知内容を可視化したが、従来技術では多くとも500程度の単語しか使えておらず[27]、単語数を約20倍に増やすことに成功した。これにより、意味認知内容の詳細な解読が可能となるため、実社会の様々な映像コンテンツがユーザへもたらす意味認知内容を予測するツールとして、この脳解読技術は大きな可能性を秘めている。実際に我々のグループは、株式会社NTTデータと共同で、この脳解読技術に基づく映像コンテンツの感性評価サービスを、2016年に事業として立ち上げることに成功した(参考:https://www.nict.go.jp/press/2015/08/06-1.html)。4.2 文の形での意味認知内容の脳解読我々のグループは、単語の代わりに文の形で意味認知内容を解読する技術も開発した[28][29]。この技術の基盤となる復号化モデルは、画像入力からそのキャプションを生成する深層ニューラルネットの特徴空間を利用している。この深層ニューラルネットは、画像入力から特徴表現を介してキャプションを生成するが、脳活動から特徴表現を予測する復号化モデルを構築することで、脳活動からキャプションを生成できるようになる。これにより、映像がもたらす意味認知内容を文の形で解読することに成功した。日常的な感覚情報は、私たちに複雑な意味認知をもたらす。その内容を単語や文の形で詳細に読み取ることができる我々の解読技術は、日常生活の様々なシーンで利用可能である。映像コンテンツや製品などの評価はもちろんのこと、非言語コミュニケーションのような未来の情報通信技術の基盤としても、今後の更なる発展が期待される。脳情報処理を再現する人工脳脳情報処理メカニズムに対する理解を得た先には、脳を人工的に再現するという工学的なゴールがある。人間の脳情報処理を計算機上で再現できれば、人間のように振る舞う人工知能や、人間のデジタルツイン(実在するものをデジタル空間上で再現する技術及びその技術により再現されたもの)が実現可能になる。我々の5図5 単語埋め込み特徴を用いた復号化モデル図6 単語による脳解読結果の例153-1 日常的な認知に関わる脳情報処理のモデル化と人工脳への応用

元のページ  ../index.html#19

このブックを見る