首页 理论教育 优化视频数据处理的方法及特征分析

优化视频数据处理的方法及特征分析

时间:2023-07-02 理论教育 版权反馈
【摘要】:视频数据是一个非结构化的二维图像流序列。代表帧的选取,一方面必须能够反映镜头中的主要事件,其描述应尽可能地准确、完全;另一方面数据量应尽量地小,同时计算不宜太复杂,以方便管理。视频数据的特征又分为静态特征和动态特征。

优化视频数据处理的方法及特征分析

视频数据是一个非结构化的二维图像流序列。要实现基于内容的视频检索,首先必须对这种非结构化的图像流进行处理,使之成为结构性的数据,才能提取各种特征,从而达到基于内容检索的目的。

基于内容的视频处理包括视频结构的分析、视频数据的自动索引和视频聚类。视频结构的分析是指通过镜头边界的检测,把视频分割成基本的组成单元——镜头,视频数据的自动索引包括代表帧的选取及静止特征与运动特征的提取,形成描述镜头的特征空间,然后依靠这个特征空间来进行镜头内容的比较;视频聚类就是根据这些特征研究镜头之间的关系。也就是如何把内容相近的镜头组合起来,缩小检索范围,提高检索效率

1.镜头边界检测

镜头是视频数据的基本单元,视频处理首先就需要把视频自动地分割为镜头,以作为基本的索引单元,这一过程就称为镜头边界的检测。它是实现基于内容的视频检索的第一步。其核心处理是识别镜头的切换。镜头切换即一个镜头到另一个镜头的转换。镜头切换时,视频数据会发生一系列的变化,主要表现在颜色差异突然增大、新旧边缘的远离、对象形状的改变和运动的不连续性等方面。镜头边界检测的目的就是要寻找这些变化的规律。目前镜头边界检测通常采用计算帧间差的方法进行。帧是一幅静止的图像,是组成视频的最小单位,镜头就是由一系列帧组成的一段视频。一般而言,同一镜头内各帧之间差异较小,而不同镜头的帧之间差异较大。镜头边界检测方法主要有直方图法、模板匹配法、基于边缘的方法等几种。

2.代表帧选取

视频分割成镜头后,要从每个镜头中抽取代表帧(R帧)。代表帧是用于描述镜头的关键图像帧,反映一个镜头的主要内容。代表帧的选取,一方面必须能够反映镜头中的主要事件,其描述应尽可能地准确、完全;另一方面数据量应尽量地小,同时计算不宜太复杂,以方便管理。选取代表帧的方法,比较经典的是帧平均法和直方图平均法。帧平均法是从镜头中取所有帧在某个位置上像素值的平均值,然后将镜头中该点位置的像素值最接近平均值的帧作为代表帧;直方图平均法是将镜头中所有帧的统计直方图取平均值,然后选择与该直方图最接近的帧作为代表帧。这些方法计算比较简单,所选取的帧具有平均代表意义,但因为是从一个镜头中选取一个代表帧,因此无法描述有多个物体运动的镜头。一般说来,从镜头中选取固定数目代表帧的方法对于变化少的镜头来说选取的代表帧过多,而对于运动较多的镜头又不能充分描述,因而不是一种很好的方法。对此,有学者提出了选取多个代表帧的方法:一种是依据帧间的显著变化来选取,其方法是计算前一个代表帧与剩余帧之差,若差值大于选定的域值,则再选取一个代表帧。这种方法可以根据镜头内容的变化程度选择相应数目的代表帧,但缺点是所选取的帧不一定具有代表意义。另一种是通过计算镜头中帧的每个像素光流分量的模之和作为这一帧的运动量,在运动量取局部最小值处选取代表帧,这种基于运动的方法可以根据镜头的结构选择相应数目的代表帧,能取得更好的效果。(www.xing528.com)

3.特征提取

视频分割成镜头后,就要对各个镜头进行特征提取,建立视频单元的自动索引,即提取镜头的颜色、纹理以及运动甚至高级语义等各种特征,形成描述镜头的特征空间,以此作为视频聚类和检索的依据。视频数据的特征又分为静态特征和动态特征。

4.视频聚类

视频聚类是研究镜头间的关系,也就是如何把内容相近的镜头组合起来。根据聚类目的的不同,视频聚类可以分为两类:一类是把同属一个场景的镜头进行聚类,以形成层次型的视频结构——场景和电影。这种聚类不但要考虑镜头内容上的相似性,还要考虑其时间上的连续性,也就是说,虽然两个镜头内容很接近(特征向量之间的距离很小),但如果它们在时间上相距得很远,就不能认为它们属于同一个场景。另一类聚类是对视频进行分类,它只考虑特征相似性,而不考虑时间连续性。根据镜头的重复程度,视频一般可分为对话型、动作型和其他类型三类。对话型视频是指一段实际的对话或像对话一样由两个或多个镜头重复交替出现的视频。动作型视频则反映故事的展开,镜头不是固定在一个地点或跟随一个事件,因而很少发生镜头的重复。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈