色情報と確率モデルを用いた
動画像からの意味的構造の検出



研究概要

近年,計算機上で動画像等に代表されるマルチメディアデータを扱うことが多くなり,これに伴った動画像データに対する研究が進められている.これらは,動画像データからユーザが望む場面を迅速に探し出すことを目的としている.動画像データはその多くがそれ自身に索引があるわけでなく,検索には何らかの情報が必要となる.

動画像における出来事や情景などの意味的なまとまりを持つ部分にアクセスするには内容に基づいたインデックス付けが必要となる.しかし,意味的にまとまった動画像区間を記述者が逐一定義するのは困難である.

動画像には色情報と呼ばれる特徴量があり,この情報は画像処理技術で自動的に抽出できるため,人手を必要としない.動画像において,描写される場所などの変化に伴い色も大きく変化し,同時にその内容も変化する.本研究ではこの情報を用いて動画像を意味的にまとまりのある部分に分割するため,動画像の基本構造単位であるショットを利用し,ショット間の意味的な関係を発見するために音声認識の研究分野で用いられている確率モデルを導入した.