深度学习与深度合成教材

时间：2023-11-18 理论教育版权反馈

【摘要】：除前面介绍的深度合成检测挑战赛的数据集外，还包括UADFV、DeepFake-TIMIT、FaceForensics++、Celeb-DF和DeeperForensics-1.0等数据集。2018年被提出的UADFV数据集可以看作第一批数据库。Celeb-DF是Li等人在2019年中提出的一个高质量的深度合成视频数据库。图8-7合成质量较差的示例图像DeeperForensics-1. 0的研究人员聘请了100名从事计算机视觉研究工作的专业人员参与分辨合成视频，以评价各种数据集的质量。表8-1深度合成数据集基本信息

深度学习与深度合成教材

深度合成检测可归纳为一个原始图像/视频与合成内容的二分类问题，需要大量的数据训练分类模型，算法性能的优劣与采用的数据集密不可分。深度合成技术产生的时间较短，数据集规模自然无法与ImageNet等数据集相提并论，但在学术界和企业界的共同努力下，在短短的两三年时间内，依然涌现了一批典型的深度合成数据集，为检测技术提供了较好的训练平台和测试基准，也推动了深度合成检测技术的发展。除前面介绍的深度合成检测挑战赛的数据集（DFDC）外，还包括UADFV、DeepFake-TIMIT、FaceForensics++、Celeb-DF和DeeperForensics-1.0等数据集。

（1）UADFV。2018年被提出的UADFV数据集可以看作第一批数据库。该数据集包含98个视频（总共32752帧），分为49个真实视频和49个合成视频。49个真实视频来自YouTube，这些视频再被用来通过FakeApp手机应用制作了49个深度合成视频。每个视频代表一个个体，典型分辨率为294×500像素，平均时长约11秒（图8-3）。

图8-3　UADFV数据集示例

（2）DeepFake-TIMIT。DeepFake-TIMIT数据库是由瑞士Idiap研究所的Korshunov和Marcel在澳大利亚昆士兰大学构建的VidTIMIT音频视频数据库基础上构建的。VidTIMIT数据库包含43个对象，每个对象拍摄了13段真实视频，DeepFake-TIMIT数据库从VidTIMIT数据库中选择16对肤色和光照差异相近的人物视频，基于多任务级联卷积网络方法MTCNN进行更稳可靠的人脸检测和对齐，使用开源的Faceswap-GAN方法创建了合成视频。制作的视频考虑了两种不同的分辨率，分别为64×64的低质量图像和128×128的高质量图像，合计620个合成视频（图8-4）。

图8-4　DeepFake-TIMIT数据集示例

（3）FaceForensics++。FaceForensics++是第一个大规模人脸合成数据集，由德国慕尼黑工业大学视觉计算组构建，数据库包括由DeepFakes、Face2Face、FaceSwap和NeuralGTextures共四种方法伪造的4000个合成视频和1000个来自YouTube的真实视频。其中，Deepfake视频是基于自编码器模型的Deep-Faceswap方法实现的深度合成视频，使用H.264编解码器分别合成压缩率0、压缩率23和压缩率40三种不同压缩程度的视频。随后，在Google的支持下，FaceFo-rensics++中加入了一个名为Deep Fake Detection数据集。该数据集包括来自16个不同场景中28个付费演员的363个真实视频，以及3068个基于FaceSwap技术实现的合成视频。

（4）Celeb-DF。Celeb-DF是Li等人在2019年中提出的一个高质量的深度合成视频数据库。该数据库包括从YouTube上提取的408个原始视频和795个合成视频，视频的主角多为好莱坞明星。这些视频是通过一个改进版本创建的开源深度合成算法，改进了合成人脸的低分辨率和颜色不一致等问题。Celeb-DF的合成视频的视觉质量要优于UADFV、DeepFake-TIMIT和FaceForensics++，观感效果类似于影视剧（图8-5）。

图8-5　Celeb-DF数据集示例（第一行为真实人脸，第二行为合成人脸）(www.xing528.com)

（5）DeeperForensics-1. 0。DeeperForensics-1.0是目前规模最大的深度合成数据集，包括50000个原始视频和10000个合成视频，共1760万帧，原始视频是由100个付费演员在各种姿态、表情和照明条件下拍摄采集的高分辨率（1920×1080）数据，与上述数据库拍摄对象不同，原始视频仅拍摄头部区域。合成视频采用其提出的DeepFake变分自动编码器方式实现。合成视频质量与Celeb-DF相仿，同样明显优于UADFV、DeepFake-TIMIT、FaceForensics++，但数据规模远大于Celeb-DF（图8-6）。

图8-6　DeeperForensics-1.0数据集示例

除了直接采用上述数据集外，用户也可以利用DCGAN、WGAN、WGAN-GP等生成对抗技术结合已有的图像库或视频自行制作数据集，但时间成本较高。

目前，构建数据集的主要挑战是缺乏高质量的视频素材。大多数公开可用的视频都是较为随意的条件下拍摄，从而导致合成的人物角色前后形成较大变化，尽管某些被变换的视频较为真实，但仍有大量可通过人眼轻松分辨的合成视频，如图8-7列出了四个数据集中肉眼可轻易辨别的部分视频截图。

图8-7　合成质量较差的示例图像

DeeperForensics-1. 0的研究人员聘请了100名从事计算机视觉研究工作的专业人员参与分辨合成视频，以评价各种数据集的质量。参与者观看从每个数据集中随机选择的30个视频剪辑，然后记录他们对“视频剪辑看起来是真实的”这句话的反馈，并给出五个层次的分数。其测试结果表明，即便是合成质量最好的两个数据库DeeperForensics-1.0和Celeb-DF，仍有相当大比例的视频看起来不像真实的。可见，在现实应用中基于上述数据集训练深度检测模型仍有一定局限性，也影响相关检查分析技术的发展，对比表8-1可知，构建高质量、大容量、多样性的数据集依然任重而道远。

表8-1　深度合成数据集基本信息

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈

研究成果

注意事项

解决方案

计算方法

发展趋势

中国古代

社会主义

心理健康

控制系统

建筑工程

经济发展

传统文化

民事诉讼

中国传统

程序设计

轨道交通

解决方法

工程施工

研究结果

建设工程

文史资料

持续发展

计算机网

使用方法

深度学习与深度合成教材

相关推荐

深度学习与深度合成教材

有关深度学习与深度合成的文章

相关推荐