首页 理论教育 基于生成对抗网络的图像描述生成技术优化方案

基于生成对抗网络的图像描述生成技术优化方案

时间:2023-06-26 理论教育 版权反馈
【摘要】:基于GAN的图像描述生成旨在通过在一对网络之间的竞争过程来生成图像的语句描述,一般是生成器用于生成语义相关描述,判别器用于评估生成的句子或段落对图像的描述程度。基于强化学习的图像描述生成方法将图像描述视为一个决策过程,在决策中有一个主体与环境交互并执行一系列操作,以实现优化。基于强化学习的图像描述生成的一些研究工作可参见文献[63][64][65]等。

基于生成对抗网络的图像描述生成技术优化方案

基于监督学习的图像描述生成需要大量带标签样本数据,而现实生活中,每天都会增加大量无标签数据,对这些数据都进行实时标注是不现实的。因此,科研人员将注意力转向基于无监督学习和强化学习的图像描述生成研究,生成对抗网络就是一种从未标记数据中学习深层特征的无监督技术。

基于GAN的图像描述生成旨在通过在一对网络(生成器和判别器)之间的竞争过程来生成图像的语句描述,一般是生成器用于生成语义相关描述,判别器(或评估器)用于评估生成的句子或段落对图像的描述程度。图8-10给出了一个基于生成对抗网络的图像描述生成流程,生成器增加了随机变量以满足描述的多样性,评估器对生成的描述进行评估,评估结果可用于指导随机变量的动态调整,通过二者的竞争生成最终的语句描述。

图8-10 基于生成对抗网络的图像描述生成方法框图[36]

基于GAN的图像描述生成的代表性研究工作包括:Dai B.等人(2017)提出同时学习一个用来生成描述的生成网络和一个用来评价生成句子是否与图像对应的评价网络,并使用增强学习中的策略梯度来克服生成器训练的问题;Rakshith Shetty等人(2017)提出一种可以为一幅图像生成多个描述的方法,通过使用对抗训练与近似的Gumbel采样器相结合实现生成样本和真实样本分布的隐式匹配;在训练过程中,生成器由判别器提供的损失值进行学习,而判别器具有真实的数据分布特性,能够区分生成样本和真实样本,从而允许网络学习不同的数据分布,使生成的图像描述更接近人类的描述。(www.xing528.com)

基于强化学习的图像描述生成方法将图像描述视为一个决策过程,在决策中有一个主体与环境交互并执行一系列操作,以实现优化。优化目标是:给定一个图像I,生成一个句子S={ω1,ω2,…,ωT},它正确地描述了图像的内容。其中,ωi表示句子S中的一个单词,T为句子长度。基于强化学习的图像描述生成模型通常包括策略网络(policy network)和估值网络(value network),模型中网络为主体,环境为给定的图像I和当前为止预测的单词{ω1,ω2,…,ωt},动作为预测下一个单词ωt+1

决策过程为:由策略网络pπ提供主体在每个状态pπ(at|st)采取行动的概率,其中当前状态st={I,ω1,ω2,…,ωt}时,动作at=ωt+1。具体而言,首先采用卷积神经网络对图像I的视觉信息进行编码,然后将视觉信息输入RNN的初始输入节点x0,循环神经网络的隐藏状态ht随着时间t不断变化,提供了在每个时间步长采取一个动作的策略。具体流程可表示为

其中,Wx,v为视觉信息线性嵌入模型的权重;φ和φ表示RN NP的输入和输出模型。可见,这种策略网络-估值网络机制能够调整网络来预测正确的词语。基于强化学习的图像描述生成的一些研究工作可参见文献[63][64][65]等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈