首页 理论教育 基于检索的方法优化技巧

基于检索的方法优化技巧

时间:2023-06-26 理论教育 版权反馈
【摘要】:基于检索的方法旨在将图像描述生成视为一个视觉空间或多模态空间的相似性查询问题,即利用视觉空间或多模态空间的图像相似性实现从图像到文本的迁移。与基于模板的方法相比,基于检索的方法生成的语句自然度和流畅性更流畅。此外,基于检索的图像描述生成方法鲁棒性比较差,在某些条件下甚至可能生成与图像内容无关的句子。

基于检索的方法优化技巧

基于检索的方法旨在将图像描述生成视为一个视觉空间或多模态空间的相似性查询问题,即利用视觉空间或多模态空间的图像相似性实现从图像到文本的迁移。基于视觉空间的描述生成方法通常包括两个步骤:(1)在选定的视觉空间中,给定相似性度量函数,获取查询图像的候选图像集;(2)对候选图像集的文本描述根据图像特征做重排序,或者根据某种规则将候选图像集的文本描述进行归纳和重组,生成对于查询图像的最终描述语句。Ordonez V.等(2011)用5个步骤总结了基于检索的图像描述生成方法:(1)输入查询图像;(2)检索相似图像;(3)提取相似图像集的高级信息;(4)重排序;(5)返回相关度最高的描述语句,如图8-4所示。其它代表性研究工作包括:Farhadi等人(2010)通过构建一个<对象,动作,场景>语义空间来连接图像和语句,对于给定的查询图像,首先基于马尔可夫随机场将其映射到语义空间,通过度量该图像与每个语句之间的语义距离,搜索距离最近的语句作为图像描述;Hodosh M.等人(2013)将图像描述生成看作一个排序任务,利用典型相关分析技术将图像和文本项投影到一个公共空间中,通过计算图像和语句之间的余弦相似度来选择排名靠前的语句作为查询图像的描述。另一种思路是,不直接使用检索到的句子作为查询图像的描述,而是利用检索到的语句为查询图像生成新的描述,如Gupta等人(2012)使用Stanford Corenlp工具包导出数据集中每个图像对应的短语列表,基于图像的全局特征检索出相似图像,然后使用训练好的短语相关性模型,从已检索到的与图像相关联的短语中选择相近短语生成最终的描述语句。

图8-4 基于检索的图像描述生成框图(以视觉空间为例)[33]

基于检索的图像描述生成方法的性能主要取决于两个因素:一是图像检索和图像重排序过程中选取的图像特征描述图像内容的准确程度;二是从候选集图像选取的文本描述是否准确、全面。与基于模板的方法相比,基于检索的方法生成的语句自然度和流畅性更流畅。缺点是严重依赖于图像检索结果,尤其是当数据集中缺少足够的相似图像时,生成的描述语句将与待描述图像的内容存在较大的偏差。此外,基于检索的图像描述生成方法鲁棒性比较差,在某些条件下甚至可能生成与图像内容无关的句子。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈