编译| CV君
CelebA-欺骗挑战2023关于面部反欺骗:方法和结果
CelebA-恶搞2023生物测定挑战,前三名的解决方案和结果。
作者|张,尹振飞,邵静,舒扬,熊等。
单位|北京交通大学与商汤,商汤,南洋理工大学等联合实验室。
报纸| https://arxiv.org/abs/2102.12642
本次比赛使用的数据集:CelebA-Spoof,由10177个主题的625537张图片组成。已经公之于众。
更多数据集信息:https://zhuanlan.zhihu.com/p/164494184
共有134名选手报名参赛,19支队伍做出了有效贡献。以下是前五名的比赛结果:
本文只介绍前三个团队的方案。
第三名方案
成员:狄秋、程震、于、郝
图1亚军计划框架
方法描述:
图2疾病预防控制中心-丹
如上图所示,提出的方法是基于CDCN和丹的融合。
CDCN可以通过聚集强度和梯度信息来捕捉详细的模式。具有自我注意机制的DAN可以通过空间相互依赖和通道相互依赖来提高特征表征的分辨率。结合它们,通过模拟关于局部强度和梯度特征的丰富上下文信息,提高人脸活体检测的性能可以是显著的。
此外,在图像的人工欺骗信息独立于语义信息的思想的激励下,成员使用面部补丁作为模型的输入,试图将欺骗特征与完整的面部特征解耦。整个面部图像被分割成许多不同的面部补丁,这使得所提出的网络必须集中于针对电子欺骗的歧视信息。
最后,引入的多尺度策略旨在从原始图像生成多尺度补片。以32*32、48*48、64*64、112*112和128*128这五种尺度随机生成面片,作为所提出的基于CNN的网络的输入大小。
一般来说,使用基于多尺度拼接的CDC DAN方法来检测活体人脸。
培训描述:
在训练阶段,为了减少过拟合,卷积神经网络通常使用数据增强训练。对于活体人脸检测,发现混合样本数据增强是非常有用的,所以使用了各种方法,包括cutout,vh-mixup,mixed-concat,random square和random interval来生成混合样本数据增强,结果比没有任何形式的混合样本数据增强训练的模型有所改善。此外,如果图像尺寸小于预设的输入尺寸,将通过镜像而不是缩放来放大图像,从而大大提高性能提高。
测试描述:
在测试阶段,没有使用任何类型的数据增强方法。只需通过镜像调整图像大小,以满足不同的网络输入要求。然后,对多个大小不同的小面片进行均匀采样,并输入到相应的神经网络模型中。最后,整合不同面片和不同模型的输出结果。
总结:
这种融合策略是一种简单的方法,只根据验证数据集的最佳性能来调整CNN模型的权重。优点平均预测的性能优于融合中任何成员的贡献。融合的机制提高性能通常是降低各个个体模型的预测方差。
另外,CDCN-丹用8个GPU训练需要2天时间,Se-resnext26用8个GPU训练,轻量网用4个GPU训练。
亚军方案
成员:李辉,刘,田启红,
图3第三名方案框架
方法描述:
五种不同的模型以及与“重量-后分选”策略的整合用于体内检测。
在训练和几个网络测试阶段,使用补丁使模型聚焦于恶搞线索而不是其他无关的人脸特征,使训练好的网络更健壮,具有泛化能力。
在整合阶段,提出了一种全新的整合策略:“先分拣后称重”。首先对不同方法的输出分数进行排序,选取前K个分数并赋予不同的权重,然后使用粒子群优化算法进行搜索。该策略是等级特定的而不是模型特定的,并且进一步提高示出了所提出的方法的性能。
培训描述:
在一个集成中使用五个单一模型:
使用中心差分卷积网络(CDCN)。不是在整个图像上进行训练,而是使用人脸图像的随机小块作为输入。分别在64*64和96*96规模的面片上训练CDCNpp。灰度图像作为CDCNpp的深度监督,其尺寸分别为16*16和24*24。LGSC:使用LGSC,将输入图像的大小调整为224*224,并用预先训练好的ResNet18模型初始化模型。使用批量平衡取样器批量平衡阳性和阴性样品。SeResNet50: SeResNet50用于简单的二进制分类。使用大小为224*224的图像作为输入,使用预先训练好的SeResNet50模型。EfficientNet-b7:所有设置与SeResNet50相同,输入大小为224*224,模型在ImageNet上进行了预训练。SeResNeXt50:训练以64*64大小的随机面片作为输入。采用类似AENet的多任务学习,在SeResNeXt50的尾部增加两个全连接层,分别预测欺骗和光照的类型。损失都是softmax交叉熵损失,欺骗型损失和光照型损失的权重分别设置为0.1和0.01。此外,上述方法采用的融合策略和图像变换如图3和下表所示。
测试描述:
CDCNpp .首先将输入图像分成3*3个部分,然后将每个部分的左上角切割成64*64,右下角切割成96*96。生成两个CDCNpp测试补丁,并对不同大小的补丁进行训练。图4展示了生成补丁的方法。水平翻转应用于96*96的面片。对于每个CDCNpp,计算测试图像的9个片的平均值作为图像的预测分数。图4第三名方案框架
SeResNeXt50:裁剪图像中央部分,大小为64*64,水平翻转面片。SeResNeXt50的预测得分计算为两个补丁的平均值。其他人。对于上面提到的其他型号,输入图像的大小调整为224*224,然后发送到LGSC、SeResNet50和EfficientNet-b7。
总结:
综上所述,使用六个模型(两个不同大小的CDCNpp块和四个其他模型)来测试一幅图像,并且获得了属于欺骗类别的六个输入图像分数。提出了一种新的“排序后加权”的模型集成策略。具体来说,首先对6个分数进行降序排序,然后选取前k个分数进行分数融合。粒子群优化算法用于寻找分配给验证集上不同等级的前k个分数的最佳k个权重。得出结论,该策略是秩特定的而不是模型特定的,并且进一步提高示出了所提出的方法的性能。在最终提交的作品中,k设为4。另外,训练持续18h,测试持续0.076s(包括预处理)。
冠军计划
成员:刘建、陈志军、郭
图5冠军方案框架
方法:由恶搞建模和恶搞融合组成。
欺骗建模:使用几个高级模型来预测每个测试图像的欺骗线索。特别地,提出了一个新的框架FOCUS(寻找欺骗线索用于人脸反欺骗)。包括基于多任务学习的模型AENet、基于二元任务的模型ResNet和攻击类型分类基本模型,以检测欺骗提示的能力。此外,使用噪声印刷方法来识别被攻击图像的设备类型。
焦点:如图5所示,受前面工作的启发,提出了这个框架——焦点。包括两个主要模块:欺骗线索生成器和辅助分类器。前者采用U-Net结构,编码器和解码器生成与输入图像大小相同的欺骗提示。在训练过程中,使用回归损失来最小化实时图像的欺骗线索。同时,对恶搞图片没有限制。对于未知攻击类型的泛化能力提高,作者设计了双路编码器,使用ResNet18 CDC作为各个编码器的主干。此外,在编码器的隐藏空间中引入反射图和深度图,并使用三维几何信息作为辅助约束。因此,隐藏空间的特征将对恶搞图像具有更高的响应。在解码器部分,引入了多分支弧面损失、live类内的紧致性以及优于live-spoon类的差异。对于后者(Aux分类器),设计了连接到生成器的二元分类模型,辅助整个框架的终端训练。Ae。网:Ae。net用于预测每个测试图像的欺骗分数。ResNet:通过对失败案例的分析,发现AENet并不擅长检测面具和户外场景中的恶搞图像。因此,部署了二进制分类模型ResNet-18来增强电子欺骗的检测能力。在训练状态下,恶搞图像的训练样本仅来自面具和户外攻击。此外,焦点损失用于解决简单样本的过拟合问题。同时采用了随机裁剪、图像翻转、颜色扭曲等一系列数据演示策略,其泛化能力为提高。攻击类型:通过分析CelebA-spoof训练数据,发现不同的恶搞图片具有相似的攻击线索,如相似的显示边框、相似的背景、相似的纸张打印边缘等。因此,训练一个基于攻击类型的模型来预测攻击线索。具体来说,首先删除包含人脸背景的前景区域,因为恶搞线索是攻击图像的特征。然后,在分类模块中训练不同的欺骗类型。噪声打印:不同相机的数字成像管道有共同的过程,如数据压缩,插值,伽马校正等。以及提供更高级功能的独特流程。不同型号的相机有不同的独特处理过程,不同相机获得的图像有各自独特的伪像,因此可以用来执行人脸检测的任务。在这个竞赛中,观察到一个特征。实时图像是从互联网或社交媒体收集的,而欺骗图像是直接从设备摄像头(如手机摄像头、平板电脑摄像头或PC摄像头)捕获的。不同的设备摄像头有不同的噪点标记,因此噪点标记被用作表示摄像头类型的特征。为了提取有噪声的印刷品,首先对图像进行DCT变换和量化,然后根据88宏块的DCT系数计算总共64个频率密度直方图。对于每个频率密度直方图,应用FFT获得超过预设阈值t的峰值数目。最后,可以使用64维向量来表示不同相机类型的噪声打印。在训练过程中,首先将训练集分为四组,第一组来自实时图像,第二组来自手机,第三组来自Pad,第四组来自PC。然后提取四组噪声印迹并发送给网络,以区分每个噪声印迹的不同分布。Spofusion:在体内检测任务中,在给定FAR的TAR下获得更好的性能,并提出启发式投票策略,使多个得分组合更加鲁棒。首先将每个训练模型的所有置信度得分归一化为0-1,将性能最好的模型作为主模型,其他模型作为辅助模型。如果所有模型的预测范围相似,则置信度得分将被修改为0或1。如果其他辅助模型可信度强,分别属于直播脸或恶搞脸,则分数修正为0或1。分数不接近0或1的图像被视为硬情况,因为它们位于每个模型的决策边界的边缘。对于这些情况,将分数重新排列到0.1左右。
总结:对于收敛策略,采用启发式投票策略,以获得最佳的TAR和FAR性能。当远是
和
融合策略可以达到100%的目标识别率。使用Pytorch实施FOCUS,并进行端到端培训。在训练阶段,采用Adam优化器对模型进行训练,初始学习率(lr)和权值衰减(wd)分别为
和
,他们最多训练模型25次,而lr每6次衰减0.3次。
在训练过程中,将对训练样本进行重新采样,以保持直播欺骗比接近1:1。在4个1080Ti GPU上,编码器中的主干ResNet18 CDC通过MSRA方法初始化。另外,培训时间为24小时,测试时间为流水线每幅图像0.8s(不含预处理)。
摘要
上述获奖方案侧重于不同方面,开发了一个强大而高效的体内检测模型。简单总结一下,获奖方案有两点提高面部活检任务性能的关键。
欺骗线索模型:除了常用的深度学习模型,如ResNet和EfficientNet,上述方案不仅继承了最近发表的模型,还设计了新的框架来检测欺骗线索,如第一种解决方案中提到的基于攻击类型的模型,第三种解决方案提出的基于噪声印迹的模型和CDC-DAN。
集成策略:获胜方法使用不同的集成策略来提高模型性能,如第一个方案提出的启发式投票方案和第二个方案提出的‘排序后加权’策略。
另外也预示着人脸检测在未来的挑战,还有很大的提升空间。比如1)大小:以后隐藏集的大小可以更大。2)多样性:实时图像可以更真实,而不是继承CelebA。