HTML5 Webook
50/124

3.1公開しているデータセットについてAIデータテストベッドでは、NICTにおける研究過程で取得または生成された8ジャンル50件のデータセットを公開している。ジャンル名及びそれぞれのデータセット数を表1に示す。これらデータセットは、データ本体がAIデータテストベッド(管理基盤)に格納されているものと、外部サイトで公開されているものがある。後者は、AIデータテストベッド公開以前に既に公開されていたデータセット等であり、これらについてはAIデータテストベッドよりリンクを張ることで、ユーザーに当該データセットを公開している外部サイトへ遷移しダウンロードしていただくよう誘導している。3.2データセットの利用についてAIデータテストベッドでは利用規約を定めており、データセットの利用は原則として無償であり、研究開発目的に限って利用することを許諾している。ただし前述のように、外部サイトで公開されているものについては、当該サイトで規定されている規約が優先される形式となっている。また、AIデータテストベッドに格納され、ここよりダウンロードされるデータセットについても、個別規約を設けることで、同様に優先される仕組みとしている。これはデータセットごとの事情に応じて柔軟な公開を可能とすることを目的としたものであり、これによってデータ公開にかかわる障壁を緩和することを意図している。3.3Webサイトの機能について機能面では基本的な検索機能とデータセットのダウンロード機能に加えて、ユーザー登録しログインすることで、興味を持ったデータセットをブックマークできるお気に入り機能がある。検索機能については、あいまい検索の機能を備えており、ユーザーが希望するデータセットをより検索しやすくしている。例えば図2に示すように、脳情報関連のデータセットを探しているケースで、検索ワードとして「前頭葉」と入力して検索した場合、「前頭葉」以外にも「大脳」や「前頂葉」等のワードを含むデータセットも検索結果としてヒット可能としている。図1 三つの基盤の概念図AIデデーータタ管管理理基基盤盤AIデデーータタ管管理理基基盤盤AIデデーータタ利利活活用用基基盤盤AIデデーータタ利利活活用用基基盤盤AIデデーータタ公公開開基基盤盤AIデデーータタ公公開開基基盤盤外部研究機関NICT各部署外部システムAIデータ(学習用データまたは学習済みモデルなど)を管理する基盤ディープラーニング等の学習または研究を実施する基盤NICTが収集したデータセットや研究成果を公開する基盤学習者、研究者AIデデーータタテテスストトベベッッドド学習者、研究者ジャンル名件数言語資源21音声資源8バイオ関連2脳情報関連15大気環境関連1宇宙天気関連1サイバーセキュリティ関連1機械学習・量⼦機械学習1表1 ジャンルと含まれるデータセット数46   情報通信研究機構研究報告 Vol.67 No.2 (2021)4 NICT総合テストベッドの新たな可能性に向けた研究開発

元のページ  ../index.html#50

このブックを見る