首页 理论教育 基于多模态机器学习的图像描述生成

基于多模态机器学习的图像描述生成

时间:2023-06-26 理论教育 版权反馈
【摘要】:基于多模态机器学习的图像描述生成与基于单一模态(如图像)的方法相比,图像特征和相应的语句描述不是各自独立地传入解码端,而是通过从图像和相应的语句描述学习一个共享多模态空间,然后把多模态表示传入解码端。图8-8给出了一个基于多模态空间的图像描述生成方法基本流程,其中包含一个图像-语言编码器、一个多模态模块和一个语言解码器。

基于多模态机器学习的图像描述生成

多模态机器学习(multimodal machine learning)研究兴起于20世纪70年代,旨在通过机器学习的方法处理和理解多模态信息(图像、视频、音频、文本等),应用领域包括图像描述生成、视觉描述、听觉-视觉双模态语音识别(audio-visual speech recognition,AVSR)、视觉问答(visual-question answer,VQA)、多媒体信息检索情感分析等领域。多模态机器学习的核心技术包括表示学习(representation learning)、模态转化(translation)、对齐(alignment)、融合(fusion)和协同学习(co-learning)等。

基于多模态机器学习的图像描述生成与基于单一模态(如图像)的方法相比,图像特征和相应的语句描述不是各自独立地传入解码端,而是通过从图像和相应的语句描述学习一个共享多模态空间,然后把多模态表示传入解码端。图8-8给出了一个基于多模态空间的图像描述生成方法基本流程,其中包含一个图像-语言编码器、一个多模态模块和一个语言解码器。图像描述生成的过程为:首先,图像编码器使用深度卷积神经网络作为特征提取器提取图像特征;语言编码器提取词特征并为每一个词学习一个稠密词嵌入(dense word embedding);然后,多模态模块将图像特征映射到与词向量的公共空间中;最后,将映射产生的多模态表示传入语言解码器生成最终的描述语句。

以下简要描述多模态映射过程。首先将编码后的图像表示为

图8-8 基于多模态空间的图像描述生成方法框图[36](www.xing528.com)

其中,CNNθC(Ib)将图像像素转换为分类器之前的全连接层的激活向量,Wm和bm为模型中可训练的参数,因此每个图像都被表示为一个一维向量。

同样地,将编码后的文本表示为一维的文本向量:

然后,将每个图像和句子映射为一组公共h维空间中的向量,通过将图像句子得分作为单个区域词得分的函数来得到:

基于多模态机器学习的图像描述生成方面的主要代表性工作包括:最早的研究来自Ryan Kiros等人(2014),他们提出一个联合学习词特征和图像特征的图像-文本多模态深度网络模型,可以在没有模板、结构化预测或者句法树的情况下生成图像的描述语句,而且可以扩展到其它模态;在他们的后续研究中,实现了多模态联合视觉-语义嵌入模型和结构-内容多模态神经语言模型(structure-content neural language model,SC-NLM)的统一,引入SC-NLM的好处是可以摆脱语句的结构,而适应编码器所产生的内容。此外,Mao等人(2015)提出一个多模态循环神经网络(multi-modal recurrent neural network,m-RNN),使用DCNN提取图像的全局特征,网络中插入一个两层词嵌入系统用来学习词特征,最后将词特征、图像特征以及RNN的隐藏层一起输入到多模态层,经过Softmax生成下一个词的概率分布;Xinlei Chen等人(2015)提出另一种多模态学习方法,他们通过在解码端增加一个循环视觉隐藏层(recurrent visual hidden layer)实现视觉特征动态更新,这种双向映射机制不仅能将图像特征翻译为文字,还能反过来从文字得到图像特征;Karpathy A.和Fei-fei Li等人(2016)提出的多模态循环神经网络架构中,使用了图像区域卷积和双向循环神经网络,首先通过多模态嵌入对齐视觉区域和语义片段,然后以此训练一个多模态RNN模型,从而根据输入图像自动生成对应区域的文本描述。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈