首页 理论教育 基于内容的多媒体检索技术优化

基于内容的多媒体检索技术优化

时间:2026-01-24 理论教育 卡哇伊 版权反馈
【摘要】:以基于内容的图像检索为代表的基于内容的多媒体检索技术的研究始于20世纪90年代。以目前的计算机视觉技术,我们还很难从多媒体内容的底层特征中准确得到其高层语义,因此到目前为止,基于内容的多媒体检索技术的查询效果往往不太理想,离实际应用还有很长的距离。

以基于内容的图像检索(content-based image retrieval,CBIR)为代表的基于内容的多媒体检索技术的研究始于20世纪90年代。该技术通过分析和提取媒体对象的底层视觉(如颜色、纹理和形状等)和听觉(如MFCC系数)等特征,利用相似度量方法,如欧式距离(Euclidean distance)、曼哈顿距离(Manhattan distance)及度量时序数据的动态时间规整(dynamic time warpping,DTW)距离等进行多媒体对象的相似匹配。早期最有代表性的CBIR系统包括IBM的QBIC系统、Virage公司的Virage系统、MIT的Photobook系统、伊利诺伊大学的MARS系统、哥伦比亚大学的Visual SEEK(Web SEEK)系统等。该技术同时也被运用到基于内容的视频查询,如卡内基·梅隆大学的Informedia系统、哥伦比亚大学的VideoQ系统、Mannheim大学的MoCA(Movie Content Analysis)系统等;国内有清华大学的TV-FI(Tsing-Hua Video Find It),以及中科院计算技术研究所的MIRES(Multimedia Information Retrieval System)等。

1)QBIC系统

QBIC(query by image content)图像检索系统是由IBM Almaden研究中心于20世纪90年代开发制作的图像和动态景象检索系统,是第一个基于内容的商业化图像检索系统。QBIC系统提供了多种查询方式,如利用标准范图(系统自身提供)、用户绘制简图、扫描输入图像、动态影像片段和前景中运动的对象等检索方式,也可以自行选择色彩或结构查询方式。在用户输入图像、简图或视频片段时,QBIC对输入的查询图像进行颜色、纹理、形状等特征进行分析和抽取,然后根据用户选择的查询方式分别进行不同的处理(见图7-2)。

图示

图7-2 QBIC检索系统

2)V isu a l SE E K检索系统

Visual SEEK由美国哥伦比亚大学电子工程系与电信研究中心图像和高级电视实验室共同研发而成,实现了互联网上“基于内容”的图像/视频检索功能,提供了一套供人们在Web上搜索和检索图像视频的工具。

Visual SEEK主要特点是利用了图像区域间的空间关系和从压缩域中提取的视觉特征,而视觉特征则利用颜色集合基于小波变换的纹理特征。Visual SEEK同时支持基于视觉特征的查询和基于空间关系的查询(见图7-3)。

优点:高效的Web图像信息检索;采用了先进的特征抽取技术;用户界面强大、操作简单、查询途径丰富、输出画面生动、支持用户直接下载信息。

3)P h o to b o o k

Photobook是MIT媒体实验室开发的一套交互式图像数据库浏览和查询工具。它放在网上的演示版给出了四种应用领域的示范:纹理识别、形状识别、人脸识别和大脑形状识别。纹理识别主要针对以纹理为主体内容的图像;形状识别给出了一些具有简单形状物体(如扳手)的检索示例;人脸识别是MIT基于他们研究的技术基础开发的重要应用;大脑形状识别则是Photobook的一个新的应用领域,它在检索过程中处理图像的3D数据。版本6允许用户通过动态的加载代码来定义匹配算法。(https://www.xing528.com)

Four Eyes是Photobook的扩展版本,它突出了交互式语义查询及系统学习功能,并且还应用了相关反馈(RF)技术。系统可以保留用户的记录,使用一个代理设施来进行学习,通过分析选择出较好的匹配模式,以改进功能。用户在参与过程中,对图像分割块进行语义注释是一个重要的步骤(见图7-4)。

图示

图7-3 Visual SEEK检索系统

图示

图7-4 FourEyes检索系统

4)M A R S检索系统

MARS是美国伊利诺伊大学开发的检索系统,它的应用范围相当广泛,包括计算机视觉、图像数据库检索和信息检索等多个领域。MARS的焦点不在于找到单一的最佳特征表达,而是如何把不同的视觉特征组织成为一个可以动态适应于不同应用和不同用户的检索机制。这个系统的突出特点在于引入了相关反馈机制,能够根据用户的交互、动态的组织和优化查询,提高检索效率(见图7-5)。

图示

图7-5 MARS检索系统

上述的检索系统均为实验室产品,商业应用很少。一般来说,基于内容的检索方法的局限性在于,它所用来描述图像或其他多媒体数据的特征是一些底层的视觉/听觉特征,而人们却习惯于在语义层次上衡量查询结果的相关与否。以目前的计算机视觉技术,我们还很难从多媒体内容的底层特征中准确得到其高层语义,因此到目前为止,基于内容的多媒体检索技术的查询效果往往不太理想,离实际应用还有很长的距离。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈