基于核矢量过滤的视频检索算法

发布时间:2008/5/26 0:00:00 访问次数:560

来源：电子技术应用作者：华中科技大学肖国强罗国兵

摘要：视频检索是高维空间中的计算。针对高维计算量大的特点，提出了构造一个核矢量的算法，将高雏空间转换到低维空间，在低维空间逐维过滤不相似的数据集，缩小检索范围，提高检索速度。

关键词：核矢量子域过滤候选集

为了有效地从视频媒体库中找到所需的信息，必须对视频信息进行有效的组织、索引，以提供快捷、方便的视觉检索。视频内容既包含与视频内容直接相关的视觉信息数据，也包括与视频不直接相关的数据(即内容无关的元数据)，如格式、作者名、日期和所有权等。其中，与视频内容直接相关的数据又分为两类：(1)内容相关的元数据，即与感觉因素相关的低层或中层特征的数据．如颜色、纹理、形状、空间联系和运动等；(2)描述与视觉信息所表示的含义相关的高层语义的内容描述元数据，即描述图像实体与客观实体的关系，如视觉符号和场景的时间、事件、感受和意图。

由于与内容无关的数据不能有效地描述视频，而高层语义信息在直接理解上存在困难，因此目前主要利用视频内容的各种低、中层特征，或利用经过人工描述后量化的高层语义特征以及它们的组合构造描述视频的特征矢量。这样形成的特征矢量是高维矢量。在高维空间如何有效地建立索引，快速响应用户的检索要求是问题的关键。

通常视频检索采用顺序扫描算法ssa(sequent scanalgorithm)，但是当媒体库不断扩大时，影响了此算法的检索效率。因此常用树结构来构造高维索引，包括η参数优化树即η-树(η parameter optimal tree)，高度平衡r-树(height-balanced tree)及其变种。分析表明，这些索引树结构在低维矢量空间是有效的，而当矢量空间超过一定的维数时，这些索引树结构比简单的顺序扫描还要差。

本文提出一种示例视频检索的方法，首先根据每一类特征生成一个质心量，将多个质心量组合成一个核矢量，然后将模式集按核矢量的每一维过滤，生成一个较小候选集，在候选集内用ssa算法查找示例视频的相似近邻。

1 特征的提取

建立索引结构首先要抽取特征，构造模式集，每一个模式由一个特征矢量描述。

1．1 中低层特征的选取

在算法的实验系统中选择了颜色、纹理、形状等特征。颜色特征采用36色非均匀量化算法的hsv颜色模型。hsv模型能较好地反映人对色彩的感知和鉴别能力，比较适合基于色彩的相似比较。纹理特征采用粗糙度、对比度和方向性这三个值组成的分量来表示。形状特征主要通过矩来描述，计算速度快，比图像分割方法的鲁棒性好。

1.2 其他特征

系统还可以进行扩展，如加入运动特征(同组人员正在寻求相关算法)及物体之间的空间关系。此外，还可以采用注释的形式形成高层语义特征，然后量化到系统中。

2 检索算法

2．1 生成核矢量

生成核矢量的主要步骤描述如下。

2．2 生成算法的索引数据结构

算法的主要思想可以描述如下。

设模式集s中含有n个矢量，记为s={s1,s2，……sn}，模式si在f上的投影记为{sif1,sif2,……sifn}。

将模式集在每个投影分量上划分成若干子域，并作如下定义：

θmax为每个子域中允许的最大模式数。若某子域元素数多于此值，则分裂子域；θmin为每个子域中允许的最小模式数，若某子域元素数低于此值，合并相邻子域；fimin为模式集在fi上的最小值；fimax为模式集在fi上的最大值；ki为模式集在fi上划分的子域数；nif1为模式集在fi上投影的第i个子域的元素数。

对模式集中的每个投影分量，寻找一组满足如下关系的值：

算法实质上相当于把模式集按其在核矢量的每个投影分量进行过滤，除去一些与示例矢量不在同一