CelebA-Spoof 2020 活体检测挑战赛前三名出炉

编译| CV君

CelebA-欺骗挑战2023关于面部反欺骗：方法和结果

CelebA-恶搞2023生物测定挑战，前三名的解决方案和结果。

作者|张，尹振飞，邵静，舒扬，熊等。

单位|北京交通大学与商汤，商汤，南洋理工大学等联合实验室。

报纸| https://arxiv.org/abs/2102.12642

本次比赛使用的数据集：CelebA-Spoof，由10177个主题的625537张图片组成。已经公之于众。

更多数据集信息：https://zhuanlan.zhihu.com/p/164494184

共有134名选手报名参赛，19支队伍做出了有效贡献。以下是前五名的比赛结果：

本文只介绍前三个团队的方案。

第三名方案

成员：狄秋、程震、于、郝

图1亚军计划框架

方法描述：

图2疾病预防控制中心-丹

如上图所示，提出的方法是基于CDCN和丹的融合。

CDCN可以通过聚集强度和梯度信息来捕捉详细的模式。具有自我注意机制的DAN可以通过空间相互依赖和通道相互依赖来提高特征表征的分辨率。结合它们，通过模拟关于局部强度和梯度特征的丰富上下文信息，提高人脸活体检测的性能可以是显著的。

此外，在图像的人工欺骗信息独立于语义信息的思想的激励下，成员使用面部补丁作为模型的输入，试图将欺骗特征与完整的面部特征解耦。整个面部图像被分割成许多不同的面部补丁，这使得所提出的网络必须集中于针对电子欺骗的歧视信息。

最后，引入的多尺度策略旨在从原始图像生成多尺度补片。以32*32、48*48、64*64、112*112和128*128这五种尺度随机生成面片，作为所提出的基于CNN的网络的输入大小。

一般来说，使用基于多尺度拼接的CDC DAN方法来检测活体人脸。

培训描述：

在训练阶段，为了减少过拟合，卷积神经网络通常使用数据增强训练。对于活体人脸检测，发现混合样本数据增强是非常有用的，所以使用了各种方法，包括cutout，vh-mixup，mixed-concat，random square和random interval来生成混合样本数据增强，结果比没有任何形式的混合样本数据增强训练的模型有所改善。此外，如果图像尺寸小于预设的输入尺寸，将通过镜像而不是缩放来放大图像，从而大大提高性能提高。

测试描述：

在测试阶段，没有使用任何类型的数据增强方法。只需通过镜像调整图像大小，以满足不同的网络输入要求。然后，对多个大小不同的小面片进行均匀采样，并输入到相应的神经网络模型中。最后，整合不同面片和不同模型的输出结果。

总结：

这种融合策略是一种简单的方法，只根据验证数据集的最佳性能来调整CNN模型的权重。优点平均预测的性能优于融合中任何成员的贡献。融合的机制提高性能通常是降低各个个体模型的预测方差。

另外，CDCN-丹用8个GPU训练需要2天时间，Se-resnext26用8个GPU训练，轻量网用4个GPU训练。

亚军方案

成员：李辉，刘，田启红，

图3第三名方案框架

方法描述：

五种不同的模型以及与“重量-后分选”策略的整合用于体内检测。

在训练和几个网络测试阶段，使用补丁使模型聚焦于恶搞线索而不是其他无关的人脸特征，使训练好的网络更健壮，具有泛化能力。

在整合阶段，提出了一种全新的整合策略：“先分拣后称重”。首先对不同方法的输出分数进行排序，选取前K个分数并赋予不同的权重，然后使用粒子群优化算法进行搜索。该策略是等级特定的而不是模型特定的，并且进一步提高示出了所提出的方法的性能。

培训描述：

在一个集成中使用五个单一模型：

使用中心差分卷积网络(CDCN)。不是在整个图像上进行训练，而是使用人脸图像的随机小块作为输入。分别在64*64和96*96规模的面片上训练CDCNpp。灰度图像作为CDCNpp的深度监督，其尺寸分别为16*16和24*24。LGSC:使用LGSC，将输入图像的大小调整为224*224，并用预先训练好的ResNet18模型初始化模型。使用批量平衡取样器批量平衡阳性和阴性样品。SeResNet50: SeResNet50用于简单的二进制分类。使用大小为224*224的图像作为输入，使用预先训练好的SeResNet50模型。EfficientNet-b7:所有设置与SeResNet50相同，输入大小为224*224，模型在ImageNet上进行了预训练。SeResNeXt50:训练以64*64大小的随机面片作为输入。采用类似AENet的多任务学习，在SeResNeXt50的尾部增加两个全连接层，分别预测欺骗和光照的类型。损失都是softmax交叉熵损失，欺骗型损失和光照型损失的权重分别设置为0.1和0.01。此外，上述方法采用的融合策略和图像变换如图3和下表所示。

测试描述：

CDCNpp .首先将输入图像分成3*3个部分，然后将每个部分的左上角切割成64*64，右下角切割成96*96。生成两个CDCNpp测试补丁，并对不同大小的补丁进行训练。图4展示了生成补丁的方法。水平翻转应用于96*96的面片。对于每个CDCNpp，计算测试图像的9个片的平均值作为图像的预测分数。图4第三名方案框架

SeResNeXt50:裁剪图像中央部分，大小为64*64，水平翻转面片。SeResNeXt50的预测得分计算为两个补丁的平均值。其他人。对于上面提到的其他型号，输入图像的大小调整为224*224，然后发送到LGSC、SeResNet50和EfficientNet-b7。

总结：

综上所述，使用六个模型(两个不同大小的CDCNpp块和四个其他模型)来测试一幅图像，并且获得了属于欺骗类别的六个输入图像分数。提出了一种新的“排序后加权”的模型集成策略。具体来说，首先对6个分数进行降序排序，然后选取前k个分数进行分数融合。粒子群优化算法用于寻找分配给验证集上不同等级的前k个分数的最佳k个权重。得出结论，该策略是秩特定的而不是模型特定的，并且进一步提高示出了所提出的方法的性能。在最终提交的作品中，k设为4。另外，训练持续18h，测试持续0.076s(包括预处理)。

冠军计划

成员：刘建、陈志军、郭

图5冠军方案框架

方法：由恶搞建模和恶搞融合组成。

欺骗建模：使用几个高级模型来预测每个测试图像的欺骗线索。特别地，提出了一个新的框架FOCUS(寻找欺骗线索用于人脸反欺骗)。包括基于多任务学习的模型AENet、基于二元任务的模型ResNet和攻击类型分类基本模型，以检测欺骗提示的能力。此外，使用噪声印刷方法来识别被攻击图像的设备类型。

焦点：如图5所示，受前面工作的启发，提出了这个框架——焦点。包括两个主要模块：欺骗线索生成器和辅助分类器。前者采用U-Net结构，编码器和解码器生成与输入图像大小相同的欺骗提示。在训练过程中，使用回归损失来最小化实时图像的欺骗线索。同时，对恶搞图片没有限制。对于未知攻击类型的泛化能力提高，作者设计了双路编码器，使用ResNet18 CDC作为各个编码器的主干。此外，在编码器的隐藏空间中引入反射图和深度图，并使用三维几何信息作为辅助约束。因此，隐藏空间的特征将对恶搞图像具有更高的响应。在解码器部分，引入了多分支弧面损失、live类内的紧致性以及优于live-spoon类的差异。对于后者(Aux分类器)，设计了连接到生成器的二元分类模型，辅助整个框架的终端训练。Ae。网：Ae。net用于预测每个测试图像的欺骗分数。ResNet:通过对失败案例的分析，发现AENet并不擅长检测面具和户外场景中的恶搞图像。因此，部署了二进制分类模型ResNet-18来增强电子欺骗的检测能力。在训练状态下，恶搞图像的训练样本仅来自面具和户外攻击。此外，焦点损失用于解决简单样本的过拟合问题。同时采用了随机裁剪、图像翻转、颜色扭曲等一系列数据演示策略，其泛化能力为提高。攻击类型：通过分析CelebA-spoof训练数据，发现不同的恶搞图片具有相似的攻击线索，如相似的显示边框、相似的背景、相似的纸张打印边缘等。因此，训练一个基于攻击类型的模型来预测攻击线索。具体来说，首先删除包含人脸背景的前景区域，因为恶搞线索是攻击图像的特征。然后，在分类模块中训练不同的欺骗类型。噪声打印：不同相机的数字成像管道有共同的过程，如数据压缩，插值，伽马校正等。以及提供更高级功能的独特流程。不同型号的相机有不同的独特处理过程，不同相机获得的图像有各自独特的伪像，因此可以用来执行人脸检测的任务。在这个竞赛中，观察到一个特征。实时图像是从互联网或社交媒体收集的，而欺骗图像是直接从设备摄像头(如手机摄像头、平板电脑摄像头或PC摄像头)捕获的。不同的设备摄像头有不同的噪点标记，因此噪点标记被用作表示摄像头类型的特征。为了提取有噪声的印刷品，首先对图像进行DCT变换和量化，然后根据88宏块的DCT系数计算总共64个频率密度直方图。对于每个频率密度直方图，应用FFT获得超过预设阈值t的峰值数目。最后，可以使用64维向量来表示不同相机类型的噪声打印。在训练过程中，首先将训练集分为四组，第一组来自实时图像，第二组来自手机，第三组来自Pad，第四组来自PC。然后提取四组噪声印迹并发送给网络，以区分每个噪声印迹的不同分布。Spofusion:在体内检测任务中，在给定FAR的TAR下获得更好的性能，并提出启发式投票策略，使多个得分组合更加鲁棒。首先将每个训练模型的所有置信度得分归一化为0-1，将性能最好的模型作为主模型，其他模型作为辅助模型。如果所有模型的预测范围相似，则置信度得分将被修改为0或1。如果其他辅助模型可信度强，分别属于直播脸或恶搞脸，则分数修正为0或1。分数不接近0或1的图像被视为硬情况，因为它们位于每个模型的决策边界的边缘。对于这些情况，将分数重新排列到0.1左右。

总结：对于收敛策略，采用启发式投票策略，以获得最佳的TAR和FAR性能。当远是

和

融合策略可以达到100%的目标识别率。使用Pytorch实施FOCUS，并进行端到端培训。在训练阶段，采用Adam优化器对模型进行训练，初始学习率(lr)和权值衰减(wd)分别为

和

，他们最多训练模型25次，而lr每6次衰减0.3次。

在训练过程中，将对训练样本进行重新采样，以保持直播欺骗比接近1:1。在4个1080Ti GPU上，编码器中的主干ResNet18 CDC通过MSRA方法初始化。另外，培训时间为24小时，测试时间为流水线每幅图像0.8s(不含预处理)。

摘要

上述获奖方案侧重于不同方面，开发了一个强大而高效的体内检测模型。简单总结一下，获奖方案有两点提高面部活检任务性能的关键。

欺骗线索模型：除了常用的深度学习模型，如ResNet和EfficientNet，上述方案不仅继承了最近发表的模型，还设计了新的框架来检测欺骗线索，如第一种解决方案中提到的基于攻击类型的模型，第三种解决方案提出的基于噪声印迹的模型和CDC-DAN。

集成策略：获胜方法使用不同的集成策略来提高模型性能，如第一个方案提出的启发式投票方案和第二个方案提出的‘排序后加权’策略。

另外也预示着人脸检测在未来的挑战，还有很大的提升空间。比如1)大小：以后隐藏集的大小可以更大。2)多样性：实时图像可以更真实，而不是继承CelebA。

{{userData.name}}已认证

CelebA-Spoof 2020 活体检测挑战赛前三名出炉

阿玛尼香水女士香水哪款好闻(迪奥香水官网价格)

双十一之后的各种诈骗问题(双十一如何防诈骗)

客服QQ

剪辑之家客服QQ：

QQ群

剪辑交流QQ群①

剪辑交流QQ群②

#

微信客服

微信客服

#