伪造图像的对抗攻击，从天池大赛说起_小言_互联网的博客

伪造图像的对抗攻击，从天池大赛说起

2020-09-27 13:04 980人阅读评论(0)

比赛名称：
安全AI挑战者计划第五期：伪造图像的对抗攻击
比赛链接：
https://tianchi.aliyun.com/competition/entrance/531812/introductio

引言

自己真心感谢阿里能够坚持下来长期举办的安全挑战者计划系列比赛，它对于参赛选手是一个非常好的锻炼平台，不仅获取宝贵经验，而且可以进一步钻研算法，把在比赛中的一些经验和技巧转化为学术论文，工程和学术两不误。

这次已经是第5期了，本期是伪造图像的对抗攻击，这是一个非常具有挑战性的领域。最关键的是每次比赛都有丰厚的奖品，也吸引了国内在这方面很多顶尖的人员参加，营造了一个很好的学习氛围。

题目概况

►赛题简介

阿里天池安全AI挑战者计划第五期比赛针对证件资质文档类图像的伪造图像对抗攻击竞赛，这次比赛区别于以往的图像取证比赛，它专注于自然内容图像并且更关注能够用于表征权利人权益的证明材料图像。

本次比赛采用的数据为10类不同图像真实的证书文档类图像。目标是通过对原始图像的特定候选区域进行伪造篡改或者说是P 图，做到视觉无伪造痕迹，并且让天池平台提供的图像取证模型无法识别篡改。

这次比赛了更好的评估参赛选手的攻击效果，主办方人员自行了设计了一个更加全面的衡量指标，除了必须有的攻击成功率外，还对伪造篡改的像素面积和图像视觉质量进行了评估。

►题目背景

本次比赛的背景是由于P图和篡改图像的技术越来越成熟和生成假图的成本越来越低，导致了假图可以被用于各种违法活动中，比如散播谣言、编造虚假新闻、非法获取经济利益，更有甚者，还可能会被用来恶意地充当法庭证据，给社会造成了一定的危害。

这是对抗样本的攻防在图像取证领取方面的博弈。本次比赛的任务通俗易懂的理解就是怎样成功攻击P图检测模型。

数据形式

本次比赛图像数据集为Adversarial_Challenge5_Data ，其中原始图像的总数量为200大小为513.53MB，图像的分辨率不固定，具体的数据样式如下图所示：

Adversarial_Challenge5_Data 数据集地址：
https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531812/Adversarial_Challenge5_Data.zip

每张图像限定五个区域进行篡改如下图所示四个红框位置加上盖章：

参赛者从10个类别中各任意选择2张进行伪造篡改，最终需要提交20张篡改图像即可。给定参赛者的数据时，同一张图像额外给定一张标定篡改位置信息的图像。篡改操作不限定（如splicing、copy-move、object removal等任意操作），允许进行后处理（如高斯模糊，JPEG压缩等）。并且不需要考虑图像的元数据。

Error Level Analysis

模型

本次比赛的检测模型有两个黑盒模型和一个ELA模型。其中ELA的英文全称是Error Level Analysis ，汉译为“错误级别分析”或者叫“误差分析”。它是通过检测特定压缩比率重新绘制图片后造成的误差分布，可用于识别JPEG图片的压缩。

►ELA原理

它把图片分割成很多个正方形中的1像素点，对每一个小块进行单独的色彩空间转换。每次对JPG图片的修改，都会进行第二次转换。两次转换自然会存在差异，ELA就是靠对比这种差异来判断图片的哪部分被修改过。ELA检测可以分为以下三部分：

点，指画面中的重复纹理或者类似数据，重复纹理在ELA分析的时候应该表现出近似的颜色，细节较多的区域数据差异也应该大。
线，是不同颜色大面之间的交界线，相同反差边缘应该表现出近似的ELA结果。反差越大，ELA值越高，线条越清晰
面，纯色面不存在差异，也就不存在ELA，黑色或黑色着色。

如下图所示为ELA模型检测图像的效果示意图，左图和右图比对可以发现，图中嘴唇，衬衫，眼睛人脸和形体轮廓区域是高亮的，说明这些区域被修改过。

►模型获取

在github中挑选出比较好的ELA模型摘选自于文章《A Picture’s Worth 》该程序是用keras编写的，环境配置容易而且程序简洁易懂很好实现，如下图所示核心代码短小精悍。

A Picture’s Worth地址：
https://github.com/agusgun/FakeImageDetector/blob/master/fake-image-detection.ipynb

除此之外，还有两个demo可以尝试用一下，在比赛中也有起到一定的帮助。一个是FotoForensics ，另一个是Forensically ，这两个demo的界面如下图所示：

FotoForensics 地址：
http://fotoforensics.com/
Forensically 地址：
https://29a.ch/photo-forensics/#forensic-magnifier

指标介绍

参赛选手在每个提供的图像上都可以对选择图像的候选5个区域进行伪造篡改。其中对P图的方式和后处理方式没有任何限制，但是会要求篡改痕迹尽量肉眼不可见。

选手得分由四部分构成：未检出篡改的比例、候选区域内篡改像素比例、候选区域外像素变化的比例、篡改区域背景一致性。

为了保证比赛的难度，主办方选取了4种经典图像取证算法作为攻击目标，包括1个白盒模型—Error Level Analysis (ELA)和另外3个未知的黑盒模型。

在进行评估时，需要使用原始图像减去修改后的图像，得到修改量，然后分别计算候选区域外未修改得分和区域内的修改得分，同时计算篡改区域背景一致性得分，图像在4个检测模型的检测得分。

候选区域外像素变化越小，得分越高；候选区域内，改动的差异越大，的得分越高；篡改区域背景一致性越高，的得分越高；候选区域内修改内容越难被检测，得分越高。为了保证篡改符合场景语义，主办方对图像伪造篡改进行如下限制：

对于篡改文字区域，篡改前后包含数量相等的文字；
限制了伪造篡改后图像要求跟原始图像在像素层面上严格对齐，即不可以裁剪图像边缘，提交图像分辨率要求与原始图像一致；
最后的得分是所提交20张图像的4个得分的总和，每张图像分数为120分，总分2400分:

►SSIM指标

其中和分别表示篡改图像块和原始图像块中对应的大小为的图像块的平均值。和分别表示篡改后图像块和原始图像块中对应的大小为的图像块的方差。表示篡改后图像块和原始图像块中对应的大小为的图像块的协方差图。表示篡改图像块的中心像素点。和的取值为0.01和0.03。

其中，是第个限定篡改区域的尺寸，是背景区域的总像素数量。

►MSE指标

和分别是篡改图像和原始图像对应的第个限定篡改区域的像素块，是对应的限定篡改区域像素块的尺寸，表示每张图像有个限定篡改区域，像素范围从0.0到1.0。

和分别是篡改图像和原始图像背景区域的像素块。

►L1距离评价

比赛相关技巧

这次比赛与前四次的AI对抗比赛有很多不同之处，我按照自己的理解试着提出一些建议。

这次比赛任务需要有一定的PS基础，如果同时具备了图像处理的基础会对你获得更高排名有很好的帮助。队伍中最少有2位同学组队，一位同学负责ps，一位负责抗检测攻击，因为ps后的图像需要进行一定后处理操作以逃避检测器的检测。当然如果你具备两方面的知识那也是极好的。
ERROR CHEAT会在提交的过程中经常出现。因为前期有部分参赛者会上传不经过任何篡改，只是单纯做后处理的图像；如果后面的参赛者也是做了类似操作，就会被后台检测到与其他参赛者存在类似图像，然后报cheat错误。对图像不进行任何语义修改，单纯进行后处理这部分的图像，在比赛结束之后的审核中是不及格的，所以参赛者在上传图像时按照候选区域进行篡改，再进行后处理操作以对抗检测，这样可以避免出现与其他参赛者数据高度重合的情况。具体问题也可以加比赛界面的钉钉群进行询问。
对于篡改文字区域，原图中被抹白或马赛克的地方都可以插入文字，该区域不要求文字长度相同；对于替换文字部分要求文字长度相同，因为文字长度差异多大最后也会导致分数并不理想。
在前期参赛者提交的图像数据来看，部分参赛者上传了没有任何语义上改变（单纯在篡改区域添加无意义线条），直接通过后处理（如重压缩，加噪声，高斯模糊）的图像数据。这些数据在最后的审核阶段都是无效的。后处理操作的目的是让检测器无法检测出图像中的篡改内容，但如果没有进行任何语义改变上的篡改，这后处理操作也是无意义的。
打码的二维码直接去掉算语义这也算是语义修改，对于证书中标定需要篡改的二维码，参赛者可以对其进行去除或者重新生成新的二维码进行替换等操作。

备注：对抗

对抗学习交流群

对抗学习等最新资讯，若已为CV君其他账号好友请直接私信。

OpenCV中文网

微信号 : iopencv

QQ群：805388940

微博/知乎：@我爱计算机视觉

投稿：amos@52cv.net

网站：www.52cv.net

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章

伪造图像的对抗攻击，从天池大赛说起

* 以上用户言论只代表其个人观点，不代表本网站的观点或立场