基于多模态机器学习的图像描述生成

时间：2026-01-23 理论教育烨版权反馈

【摘要】：基于多模态机器学习的图像描述生成与基于单一模态(如图像)的方法相比，图像特征和相应的语句描述不是各自独立地传入解码端，而是通过从图像和相应的语句描述学习一个共享多模态空间，然后把多模态表示传入解码端。图8-8给出了一个基于多模态空间的图像描述生成方法基本流程，其中包含一个图像-语言编码器、一个多模态模块和一个语言解码器。

多模态机器学习(multimodal machine learning)研究兴起于20世纪70年代，旨在通过机器学习的方法处理和理解多模态信息(图像、视频、音频、文本等)，应用领域包括图像描述生成、视觉描述、听觉-视觉双模态语音识别(audio-visual speech recognition，AVSR)、视觉问答(visual-question answer，VQA)、多媒体信息检索、情感分析等领域。多模态机器学习的核心技术包括表示学习(representation learning)、模态转化(translation)、对齐(alignment)、融合(fusion)和协同学习(co-learning)等。

基于多模态机器学习的图像描述生成与基于单一模态(如图像)的方法相比，图像特征和相应的语句描述不是各自独立地传入解码端，而是通过从图像和相应的语句描述学习一个共享多模态空间，然后把多模态表示传入解码端。图8-8给出了一个基于多模态空间的图像描述生成方法基本流程，其中包含一个图像-语言编码器、一个多模态模块和一个语言解码器。图像描述生成的过程为:首先，图像编码器使用深度卷积神经网络作为特征提取器提取图像特征；语言编码器提取词特征并为每一个词学习一个稠密词嵌入(dense word embedding)；然后，多模态模块将图像特征映射到与词向量的公共空间中；最后，将映射产生的多模态表示传入语言解码器生成最终的描述语句。

以下简要描述多模态映射过程。首先将编码后的图像表示为

图8-8　基于多模态空间的图像描述生成方法框图[36](https://www.xing528.com)

其中，CNNθC(Ib)将图像像素转换为分类器之前的全连接层的激活向量，Wm和bm为模型中可训练的参数，因此每个图像都被表示为一个一维向量。

同样地，将编码后的文本表示为一维的文本向量:

然后，将每个图像和句子映射为一组公共h维空间中的向量，通过将图像句子得分作为单个区域词得分的函数来得到:

基于多模态机器学习的图像描述生成方面的主要代表性工作包括:最早的研究来自Ryan Kiros等人(2014)，他们提出一个联合学习词特征和图像特征的图像-文本多模态深度网络模型，可以在没有模板、结构化预测或者句法树的情况下生成图像的描述语句，而且可以扩展到其它模态；在他们的后续研究中，实现了多模态联合视觉-语义嵌入模型和结构-内容多模态神经语言模型(structure-content neural language model，SC-NLM)的统一，引入SC-NLM的好处是可以摆脱语句的结构，而适应编码器所产生的内容。此外，Mao等人(2015)提出一个多模态循环神经网络(multi-modal recurrent neural network，m-RNN)，使用DCNN提取图像的全局特征，网络中插入一个两层词嵌入系统用来学习词特征，最后将词特征、图像特征以及RNN的隐藏层一起输入到多模态层，经过Softmax生成下一个词的概率分布；Xinlei Chen等人(2015)提出另一种多模态学习方法，他们通过在解码端增加一个循环视觉隐藏层(recurrent visual hidden layer)实现视觉特征动态更新，这种双向映射机制不仅能将图像特征翻译为文字，还能反过来从文字得到图像特征；Karpathy A.和Fei-fei Li等人(2016)提出的多模态循环神经网络架构中，使用了图像区域卷积和双向循环神经网络，首先通过多模态嵌入对齐视觉区域和语义片段，然后以此训练一个多模态RNN模型，从而根据输入图像自动生成对应区域的文本描述。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

工作计划

年度工作

工作规划

教学计划

实施方案

工作方案

教学工作

发展计划

德育工作

管理工作

发展规划

工作总结

教育工作

体育教师

年度计划

后勤工作

安全教育

工作思路

教育计划

小学教师

幼儿教师

数学教师

食品安全

英语教学

基于多模态机器学习的图像描述生成

相关推荐

基于多模态机器学习的图像描述生成

相关文章：

相关推荐