タイトル 動きに着目した新しい映像コンテンツ検索技術
宮森 恒

1. はじめに

 近い将来、デジタルテレビや高速インターネットが一般家庭に普及すると、消費者は大量の映像データから自分の好みにあったものを楽しむことができるようになると予想される。しかし、利用者の視聴時間には限界があるため、好きなシーンだけを取り出す検索機能が今後ますます重要になる。
 映像を簡単に検索するためには、映像中の詳細データをあらかじめ「しるし(インデックス:ID)」として記録しておく事が必要だが、この作業は経験ある専門のスタッフが多大な労力を駆使して手作業で行っているのが現状である。計算機を用いた内容理解システムが実現すれば、これらの作業を大幅に軽減できるだけでなく、手作業ではコストのかかりすぎるきめ細かい詳細データまで自動記録することが可能となる。これにより、システムを安く構築でき、一般の利用者は文化的・医学的に重要な映像資源を広く手軽に利用できるようになる。特に、大学教育、医学教育に使用することで遠隔教育、遠隔医療への応用が考えられるだけでなく、芸術やスポーツといった高度な技能をもつ人材育成の分野にも幅広く貢献できるようになる。
 通信総合研究所では、平成7年度に映像メディアを中心とした高度情報資源伝送・蓄積技術の研究プロジェクトを開始し、その一環として、人間が本当に見たいと思うシーンだけを効率よく取り出せる検索システムの実現を目的とする「映像コンテンツ検索」の研究プロジェクトを進めてきた。映像コンテンツ検索とは、例えばサッカー映像の場合、シュートシーン、ゴールシーンなどの特定場面を検索できる機能のことで、内容に基づく検索とも呼ばれている。
 本稿では、本プロジェクトの成果として、特に、映像中の人物の動きに着目した検索技術の仕組みとこの技術を用いた検索システムについて紹介する。

2. 本コンテンツ検索の仕組み

 従来の検索は「キーワード」によるもので、映像のタイトルや映像に添付される内容に関する注釈をあらかじめ付けることによって映像コンテンツ検索を行なっていた。それぞれの映像内容を詳細に調べて注釈をつけることは、ドラマやニュースなど「シナリオ」があるものには容易であるが、スポーツ映像のようにシナリオのないものは、その映像管理者への負担は膨大であった。この問題を解決するため、色、形、模様、カメラワークといった映像の特徴をインデックスとする方法が提案されたが、これらの方法は汎用映像に広く適用できる利点がある一方、映像の特徴が低レベルの情報しか表現できず、映像内容を人間が解釈するのと同じようなレベルで表現するのは極めて困難であるという問題点が残った。
 私達のアプローチは、映像中の人物などが行なう「動作」をインデックスとして用いることで、映像コンテンツ検索をより実用的なレベルに近づけようとするものである。また、対象を特定の種類の映像に限定し、その映像の種類ごとに利用可能な知識も積極的に用いることにした。
 関連する研究にサッカーやテニス映像の対象物の軌跡、相対位置、およびその時間変化等を利用したものがあるが、いずれも「位置情報」に基づいたインデックスで、対象物の「動作」を明確に表現しているとはいえない。
私達の提案する表現は次の3つのデータから構成される:
(1)動作インデックス
一つの対象物による動作を表す。例えば、サッカー映像の場合、「キック」、「ジャンプ」、「走る」などとなる。実際は、動作IDだけでなく、その動作の開始時刻・終了時刻・対象物ID・対象物の軌跡といった情報をもつ。
(2)インタラクションインデックス
複数の対象物による動作を表し、例えば、サッカーの場合、「パス」、「ゴール」などを表す。インタラクションIDはその性質上、映像の種類に依存したIDとなる。実際には、開始時刻・終了時刻・関連する対象物の数と全ID・必要に応じて時間区間における対象物の軌跡を記述する。
(3)イベントプロファイル
検索対象となる一般的な各イベントが満たすべき必要条件を定義し、対象物の位置や動作などの一連の時空間的な関係を評価する関数で表す。例えば、サッカーの場合、「スルーパス」は、パスの特殊な場合として定義され、インタラクションID「パス」に該当する時間区間で、周辺の敵チームの選手同士を結ぶ直線をボール軌跡が横切った場合、として記述される。
 検索は、イベントプロファイルで定義される条件に一致する、対象物の位置や配置関係、動作インデックスの組み合わせを選択することによって行われる。イベントプロファイルによる処理で得られた動作インデックス・インタラクションインデックスの組み合わせは、新しいインタラクションインデックスとして、逐次、データベースに追加される。

3. 映像コンテンツ検索システム

 検索システムはウェブ環境で利用できるようにし、利用者は通常のウェブブラウザを用いてネットワークを介した検索要求を発行し、検索処理はサーバ側で行なわれる。図1に、サッカーにおける動作インデックスの例を示す。各インデックスは、動作の変化点を記述境界とし、同定した動作IDを最小単位として記述される。図中、(A)(B)はチームを表し、Obj.X(Ball)はボールを表す。
 図2に、サッカー映像のコンテンツ検索において入力可能な検索キーワードの一覧を示す。個人動作は、選手個人に与えられた動作インデックスから検索する。一方、攻撃・守備イベントは複数の選手による関係からなるイベントで、複数の選手間の距離、配置、動作の順序によって検索される。図2は、ゴールシーンを選択したときの様子である。
 図3には、ゴールの検索結果が得られた様子を示す。ゴールを含む映像シーンの先頭画面が表示されており、用意した映像データからゴールシーンが4つ抽出できたことを示している。それぞれの先頭画面をクリックすると、その映像シーンが再生される。
 人物監視映像についても本コンテンツ検索は適用可能である。オフィス内のメールボックスを監視するカメラの映像データを使用し実験を行った(図4)。このテスト画像では、メールボックスの前を行き来する人物はほとんどないが、時々通り過ぎる人物もおり、また、その中でメールボックスを確認する人物が存在することもある。検索項目としては、「人物が存在」、「メールボックス確認」の場面(図5)をそれぞれ検索することが可能である。これにより、長時間の監視映像から短時間に効率よく必要なシーンを確認することができるようになる。



図1 サッカーにおける動作インデックス
図2 検索入力画面 図3 特定シーンの検索結果
図4 監視映像の一部 図5 「メールボックス確認」の検索結果

4. まとめ

 映像の内容そのものを判別し、特定の場面を検索するための技術(映像コンテンツ検索)について報告した。この技術を利用すると、例えば、サッカーの録画映像から、ゴールシーンやシュートシーンだけをすばやく取り出すことが可能となり、また、スポーツ映像だけでなく人物や交通流の監視に有効と考えられ、今後さまざまな分野での応用が期待される。より多くの映像に適用したデータベース構築が今後の課題である。また、大量の映像データから効率よく検索できるため、映像インデックスの共通化を目指したマルチメディア・コンテンツ記述インターフェースの次世代国際標準MPEG-7にも貢献するものと期待されている。
(情報通信部高度映像情報研究室)
ボタン 前の記事へ ボタン CRLニュース表紙へ戻る ボタン 次の記事へ
 新年の挨拶
 光多重技術が生み出す超高速ネットワーク
 ―フォトニックネットワークの実現をめざして―
 高速赤外光空間通信技術の研究
 アジア太平洋計量計画(APMP)総会出席報告
 −計量技術の国際的流れ−
 エンボッシング・モールス電話機145年ぶりに蘇る!
 マイクロウェーブ展 '99出展報告
 学位取得者リスト
 学会受賞者リスト
 人事異動