首页 理论教育 深度合成检测挑战赛:超越深度学习

深度合成检测挑战赛:超越深度学习

时间:2026-01-27 理论教育 浅陌 版权反馈
【摘要】:深度合成检测挑战赛之所以引人注目,不仅在于其由Facebook、微软等科技巨头公司发起,而且在于该项比赛的奖金高达100万美金!如同人工智能必须与大数据结合一般,组织机器学习比赛的关键之一在于搭建高质量数据集,对于深度合成检测分析而言更是如此。Facebook在赛后表示,利用大赛中得分最好的模型对未见过的数据集进行测试时,准确率仅为65.18%,这表明目前深度合成视频的检测分析依然是一个非常具有挑战性的课题。

深度合成检测挑战赛之所以引人注目,不仅在于其由Facebook、微软等科技巨头公司发起,而且在于该项比赛的奖金高达100万美金!具体分配为第一名50万美元,第二名30万美元,第三名10万美元,第四名6万美元,第五名4万美元。迄今为止,机器学习领域百万美元级比赛只有两项,另一项是2006年的网飞奖(Netflix Prize)。当时的Netflix公司豪掷100万美元悬赏预测用户对电影评分的算法,要求比该公司自己的Cinamatch算法提升10%以上。

如同人工智能必须与大数据结合一般,组织机器学习比赛的关键之一在于搭建高质量数据集,对于深度合成检测分析而言更是如此。自2019年9月,Facebook宣布与数家公司和高校合作发起挑战赛后不久,Facebook发起了一项个人视频征集活动,希望不同肤色、不同性别、各种年龄的志愿者利用个人电脑或手机的摄像头,在卧室、走廊、后院等场所拍摄个人的演说或与他人的交流。并同意主办方将上传的视频进行合成等后期处理,每个上传作品中的角色都可能会成为深度合成视频中的当事人。在几个月的时间里,众多志愿者开始了自拍,在室内、室外探讨的各种话题,包括从垃圾食品有多危险到艺术教育有多重要等。最终,这些视频都成了比赛数据集的一部分。挑战赛训练集在2019年12月在Kaggle网站公开,达到了史无前例的471.84GB,共包括66个人物、1131个真实视频和4119个合成视频。为了方便参赛选手下载和访问,主办方把它分成了50个“小文件”,每个大约10GB。除了训练集,比赛还提供了一个包含400段视频的验证集(包括77个真实视频,323个深度合成视频)下载。

为更加客观公正地考核参赛选手的深度合成检测方法,主办方提供了两个测试集,一个是公共测试集,公开的排行榜就是由它决定的;另一个是私有数据集,它会在代码提交截止之后揭晓排出一个不公开的排行榜。报名比赛之后,选手可以利用Kaggle Notebooks进行模型设计和测试,该平台提供每周30小时免费的GPU和TPU的硬件加速。鉴于数据集大到很难直接在Kaggle上使用的地步,官方强烈建议离线训练。然后把训练好的模型加载为一个外部数据导入平台,在测试集上进行测试并提交预测结果,预测结果为0~1之间的数字,可以看作预测为真假两类的概率,系统按照二分类交叉熵对分类结果进行打分排名。在2020年3月31日最终模型提交之前,每个参赛队伍每天只能提交两次对公开测试集的预测结果,最后选择成绩最好的两次模型进行最终排名。(https://www.xing528.com)

2020年6月13日,该项挑战赛公布了最终比赛结果,中国科学技术大学网络空间安全学院的俞能海教授和张卫明教授率领的科研团队从2265支参赛队伍中脱颖而出,最终取得了全球第二的好成绩,获奖金30万美元。第一名由全球位置数据平台企业Mapbox公司获得,二者得分差距仅有0.00044,这也说明我国在此领域的研究处于世界领先水平。

Facebook在赛后表示,利用大赛中得分最好的模型对未见过的数据集进行测试时,准确率仅为65.18%,这表明目前深度合成视频的检测分析依然是一个非常具有挑战性的课题。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈