首页 理论教育 基于编-解码架构的图像描述生成技术

基于编-解码架构的图像描述生成技术

时间:2023-06-26 理论教育 版权反馈
【摘要】:图8-6给出了基于基本编-解码架构的图像描述生成框架,将一幅原始图像输入一个由CNN和RNN组成的端到端神经网络,网络自动输出完整的描述语句。图8-6基于基本编-解码架构的图像描述生成框图如8.1节所述,m-RNN模型和NIC模型开创了将深度卷积神经网络和循环神经网络结合起来解决图像描述生成问题的研究。

基于编-解码架构的图像描述生成技术

编-解码架构是在图像描述生成中被广泛应用的一种结构,最初用于解决机器翻译中的序列-序列(sequence to sequence,Seq2seq)学习问题,其中编码端和解码端均采用RNN架构,分别对两种不同的语言进行建模。图像描述生成解决的是视觉-语言(visual to language,V2L)学习问题,也继承了这种编-解码思想,将原机器翻译模型中作为编码器提取源语言特征的循环神经网络(RNN),替换为卷积神经网络提取图像特征,输入由文本变为图像。至于解码端,早期的研究仍采用RNN,将其用于解码器,接受卷积神经网络(CNN)的输出作为其输入;但是,由于RNN内部单元更新在反向传播过程中存在梯度消失问题,而长短记忆网络(LSTM)作为一种特殊的循环神经网络架构,能缓解梯度消失问题,后来编-解码的解码端更常采用LSTM及其变体GRU,以获得更好的长期记忆。编码端的输出即为描述语句。图8-6给出了基于基本编-解码架构的图像描述生成框架,将一幅原始图像输入一个由CNN和RNN组成的端到端神经网络,网络自动输出完整的描述语句。受益于CNN强大的特征提取能力和RNN/LSTM对时序信息的捕获和建模能力,基于编-解码架构的图像描述生成在性能上优于传统的基于模板和基于检索的图像描述生成方法。

图8-6 基于基本编-解码架构(vanilla encoder-decoder architecture)的图像描述生成框图

如8.1节所述,m-RNN模型和NIC模型开创了将深度卷积神经网络和循环神经网络结合起来解决图像描述生成问题的研究。同期的另一项代表性研究是Andrej Karpathy和李飞飞等人(2015)提出的基于稠密图像标注的多模态循环神经网络图像描述生成框架,利用图像和对应的文本描述学习视觉和语言之间的模态间相关性。

以上工作奠定了编-解码架构在基于深度学习的图像描述生成研究中的主流地位。为了满足不同的任务需求以及提高图像描述生成的性能,人们在基本编-解码架构的基础上做了多种改进。代表性研究工作包括:在编码端或者解码端增加注意力模块,以适应局部注意视觉任务需求;在编码端和解码端之间增加共享多模态空间模块,以适应多模态转换视觉任务需求;结合生成对抗网络,以及强化学习,解决带标签训练样本不足以及图像描述多样化问题等。具体到编码和解码过程,在编码端的改进主要体现在使用编码端多实例训练词语检测器提取关键词作为输入,引入目标检测作为编码端的输入等;在解码端的改进主要体现在使用神经网络来提取句子模板,解码过程风格化,逐级分层解码,使用卷积神经网络作为解码器,解码端基于图像上下文通过知识图谱引入外部知识,解码端的相似性-多样性多模型联合训练,解码端采用扩展的LSTM模型——g-LSTM,增加从图像中提取的语义信息作为LSTM块每个单元的输入,在解码端采用多层LSTMs模型从而增加编-解码垂直深度的网络结构,等等。

此外,通过在基本编-解码架构上增加视觉概念模块和重排序模块,发展出一种组合架构。如图8-7所示,基于这种组合架构的图像描述生成一般包括以下几个步骤:(www.xing528.com)

(1)利用卷积神经网络获取图像视觉特征;

(2)从图像视觉特征获取图像的视觉概念(如图像属性);

(3)基于图像视觉特征和视觉概念生成多个图像描述;

(4)使用深度多模态相似模型对生成的多个图像描述进行重新排序,选择质量最高的作为最终的图像描述。

图8-7 基于组合架构的图像描述生成框图[36]

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈