首页 理论教育 深度合成原理|数据收集、模型训练和内容生成

深度合成原理|数据收集、模型训练和内容生成

时间:2023-11-18 理论教育 版权反馈
【摘要】:视频或图像中人物角色深度合成技术的实现总体可以分为数据收集、模型训练和伪造内容生成三个步骤,其关键在于模型训练,采用的核心技术包括VAE和GAN,本小节以图像中的角色生成为例对深度合成技术的基本原理作简单介绍。对每一个视频帧人脸图像进行合成后,再将所有被修改的帧连接在一起得到深度合成视频。图8-2深度合成实现流程随着生成对抗网络技术的发展,研究人员也将GAN引入了深度合成技术中。

深度合成原理|数据收集、模型训练和内容生成

视频或图像中人物角色深度合成技术的实现总体可以分为数据收集、模型训练和伪造内容生成三个步骤,其关键在于模型训练,采用的核心技术包括VAE和GAN,本小节以图像中的角色生成为例对深度合成技术的基本原理作简单介绍。

最初的深度合成技术采用了自动编码器(Auto-Encoder, AE)模型。为合成虚拟人物或指定人物的视频内容,需要事先准备两个人(在图中用A/B区分)一定数量的人脸图像集,定义两个结构相同的自动编码器,每个自动编码器由编码器(en-coder)和解码器(de-coder)两部分构成,其中编码器用于提取人脸图像的潜在特征,解码器用于重建人脸图像。图8-1中这两组自动编码器分别对应着人物A和人物B,基于已收集的人物A和人物B的图像集进行训练,为了交换A和B的人脸,编码器A和编码器B具有相同的编码网络,即编码器的参数在两个网络对之间共享,使得编码器能够发现和学习两组人脸图像之间的相似性,如眼睛、鼻子、嘴巴等五官特征。完成训练后,人脸A可以被同一编码器编码,而被编码器B解码,从而实现人脸A被人脸B替换,从而生成新的人物图像。

图8-1 深度合成原理

训练好自动编码器后,可以利用其实现对视频内容的深度合成,一般步骤如下:

(1)将原始视频中需要合成的每一帧进行拆分;

(2)利用人脸识别技术识别出原始视频帧中人物脸部区域,如图8-2的A所示,并标记出人脸区域中的特征点,如图8-2的B所示。

(3)截取人的脸部图像,如图8-2的C所示。

(4)由于自编码器是对固定尺寸的图像进行变化,需要将脸部图像通过仿射变换进行对齐并缩放到固定的大小,如图8-2的D、E所示。(www.xing528.com)

(5)将校正后的脸部区域送入自编码器来将其转化成合成的人脸,如图8-2的E、F所示。

(6)根据之前仿射变换的参数,将自编码器生成的脸图像(图8-2的F)的旋转角度和尺寸变换到和校正前的人脸图像相一致。整个脸部合成过程如图8-2的D、E、F、G所示。

(7)将合成后的人脸图像安放回原视频帧(图8-2的H)后,使用泊松克隆等技术消除人脸与原视频帧背景区域的不一致边界,如图8-2的I所示,最终显得更加自然真实图像图8-2的J所示。

(8)对每一个视频帧人脸图像进行合成后,再将所有被修改的帧连接在一起得到深度合成视频。

图8-2 深度合成实现流程

随着生成对抗网络技术的发展,研究人员也将GAN引入了深度合成技术中。Faceswap-GAN可以看作当前较为热门的一种深度合成生成模型,可用于生成分辨率为64×64、128×128和256×256等多种分辨率的视频内容。Faceswap-GAN以CycleGAN为主要模型,使用自动编码器作为生成器,使用CNN作为判别器,检查人脸的合成质量,利用GAN的对抗机制提高自动编码器的图像生成质量。此外,Faceswap-GAN还引入了多任务卷积神经网络(MTCNN),使得针对人脸的检测更加稳定,增加了人脸对齐的可靠性;增加了感知损失,使眼睛的运动更真实并消除遮挡物带来的模糊问题,从而获得更高质量的输出视频。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈