近日,计算机视觉领域的“奥斯卡”CVPR 2020正式公布了论文征集结果。随着提交数量的激增,录取率开始经历持续下降。今年,在6656篇有效投稿中,有1470篇论文被接受,接受率约为22%,与去年25%的选择率相比下降了3%。在论文接受率下降的同时,中国科技企业接受的论文数量不减反增。百度作为AI代表企业,今年入选论文22篇,比去年的17篇增加了5篇。
近年来,CVPR蓬勃发展的重要原因很大程度上归功于中国科技公司的贡献。本次大会,百度精选了22篇论文,全面覆盖了人脸检测与识别、视频理解与分析、图像超分辨率、自动驾驶中的车辆检测、场景实例分割等多个热门子领域。在视觉领域,也向国际展示了中国视觉技术水平的深厚积累。除了征集到的众多论文,百度还将在本届CVPR与悉尼科技大学、南开大学联合举办第二届不完全数据学习研讨会和第四届媒体取证研讨会,与更多顶尖学者进行深入交流。
以下是百度为CVPR 2020选择的一些论文:
人脸检测和识别
HAMBox:深入研究在线高质量主播检测外部面孔
最近,关于人脸检测器使用锚点构建分类和坐标盒回归相结合的多任务学习问题,有效的锚点设计和锚点匹配策略使人脸检测器能够在大姿态和尺度变化下准确定位人脸。百度在本文中提出了一种在线高质量锚点挖掘策略HAMBox,可以用高质量锚点补偿异常外脸。HAMBox方法可以作为基于定位点的单步人脸检测器的通用优化方案。在宽脸、FDDB、AFW和帕斯卡人脸数据集上的实验表明了其优越性。同时在2019年Widerface和行人挑战赛中,以57.13%的MAP夺冠,享誉国际。
FaceScape:大规模高质量3D人脸数据集和详细的可触发3D人脸预测
本文发布了大规模高精度3D人脸模型数据库FaceScape,首次提出了从单幅图像预测高精度可控3D人脸模型的方法。FaceScape数据库包含约18000个高精度三维人脸模型,每个模型都包含基本模型、4K分辨率位移图和纹理图,可以表示人脸极其精细的三维结构和纹理。与现有公开的3D人脸库相比,FaceScape在模型数量和质量上处于世界最高水平。在FaceScape数据库的基础上,本文还探索了一个具有挑战性的新课题:利用单幅人脸图像作为输入,预测表情可控的高精度三维人脸模型。该方法的预测结果可以通过表情操纵生成精细的人脸模型序列,生成的模型在新的表情下仍然包含逼真的细节三维结构。据悉,FaceScape数据库和代码将于近期免费发布,用于非商业学术研究。
用于人脸识别的分层金字塔多样注意网络
目前主流的人脸识别方法很少考虑不同图层的多尺度局部特征。因此,本文提出了一种分层金字塔多样化注意力模型。当人脸的整体外观发生较大变化时,局部区域将发挥重要作用。在最近的工作中,注意力模块被用于自动定位局部区域。如果不考虑多样性,习得的注意通常会在一些相似的局部块周围产生冗余反应,而忽略其他潜在的有区别的局部块。此外,由于姿势或表情的变化,可能会出现不同尺度的局部块。为了缓解这些挑战,百度团队提出了金字塔多样性注意模块,以自动和自适应地学习多尺度多样性局部表示。更具体地,开发了金字塔注意力模块来捕捉多尺度特征。同时,为了鼓励模型关注不同的局部块,开发了多样化的学习方法。其次,为了融合局部细节或来自下层的小尺度人脸特征图像,可以使用分层双线性池,而不是级联或相加。
目标检测和跟踪
用于3D点云对象检测的感知到概念的关联
目标检测技术是机器人和自动驾驶领域中最重要的模式识别任务之一。提出一种域自适应方法来增强稀疏点云特征的鲁棒性。更具体地,来自真实场景的特征(感知域特征)与来自包含丰富细节的完整虚拟点云的特征(概念域特征)相关联。这种领域自适应特征关联的方法,实际上是模拟了人脑感知物体时的联想功能。这种3D目标检测算法在训练过程中增强了特征提取能力,在推理阶段不需要引入任何额外的组件,使得该框架易于集成到各种3D目标检测算法中。
基于点云的三维视频对象检测的神经信息传递和注意力时空转换器
基于单帧点云的三维物体检测器通常无法处理物体遮挡、远距离和不均匀采样等情况,而点云视频(由多个点云帧组成)通常包含丰富的时空信息,可以提高上述情况下的检测效果。因此,本文提出了一种端到端的在线三维点云视频对象检测器。本文中的柱子消息传递网络(PMPNet)可以将点云俯视图下的非空网格编码成图节点,在节点间传递信息,动态提高节点的感受野。PMPNet可以有效地将图形空间的非欧洲特性与CNN的欧洲特性结合起来。在时空特征聚合模块中,还提出了时空注意机制来增强原始的Conv-GRU层。空间注意机制增强前景,抑制新记忆的背景,时间注意机制用于对齐相邻帧中的动态前景对象。3D点云视频目标检测器在nuScenes大型基准集上取得领先效果。
高效在线多目标跟踪的统一目标运动和关联模型
使用单目标跟踪器(SOT)作为运动预测模型进行在线多目标跟踪(MOT)是目前流行的方法,但这种方法通常需要设计复杂的相似性估计模型来解决相似目标干扰和密集遮挡问题。本文采用多任务学习策略将运动预测和相似性估计转化为一个模型。值得注意的是,模型还设计了三重网络,可以同时进行SOT训练、目标ID分类和排序。网络输出的显著特征使得该模型在定位、识别目标和关联多目标数据方面更加精确。此外,本文还提出了一个特定于任务的注意模块,以强调特征的不同上下文区域,并进一步强化SOT和相似性估计任务的特征。最后,通过该方法获得了低存储(30M)和高效率(5FPS)的在线MOT模型,并在MOT2016和MOT2017标准测试集上取得领先结果。
视频理解分析
ActBERT:学习全局-局部视频-文本表示
受BERT自我监控训练的启发,百度团队做了类似的视频和文本联合建模,基于叙事视频研究视频和文本的对应关系。对齐的文本由现成的自动语音识别功能提供,这些叙事视频是研究图文关系的丰富数据源。ACT强化了视频文本的特征,可以发现细粒度的对象和全局的动作意图。百度团队已经在文本视频片段检索、视频字幕生成、视频问题求解、动作分割、动作片段定位等多个视频和语言任务上验证了ActBERT的泛化能力。ActBERT明显优于一些最新的视频文字处理算法,进一步证明了其在视频文本特征学习中的优越性。
用于高效交互式视频对象分割的存储器聚集网络
本文的目的是设计一个快速交互式视频分割系统。用户可以基于视频的某一帧在物体上给出简单的线条,分割系统会从整个视频中分割出物体。以前,用于交互式视频分割的方法通常使用两个独立的神经网络来分割交互式帧,并将分割结果传输到其他帧。本文将交互和传导结合在一个框架中,采用像素嵌入的方法。像素嵌入只需要在视频的每一帧提取一次,效率更高。此外,该方法使用了创新的内存存储机制,将之前交互的内容应用于每一帧并存储。在新一轮交互中,读取内存中对应帧的特征图,并及时更新内存。该方法大大提高了分割结果的鲁棒性,在DAVIS数据集上取得了领先成果。
具有联合自监督时域自适应的动作分割
虽然运动分割技术近年来在全监督领域取得了进展,但其性能仍然不足。一个主要的挑战是时间和空间的变化(例如,不同的人可能以不同的方式执行相同的动作)。因此,本文利用未标记视频,通过将运动分割的任务重新设计为跨域问题来解决这个问题,而这个跨域问题主要是针对时空变化引起的域差异。为了减少这种差异,本文提出了“自监督时域自适应(SSTDA)”,它包括两个自监督辅助任务(二进制和顺序域预测),以联合对齐和嵌入不同尺度的时域动态跨域特征空间,从而获得比其他域自适应(DA)方法更好的结果。在三个具有挑战性的公开数据集(GTEA、50沙拉和早餐)上,SSTDA遥遥领先于最新方法,只需要65%的标记训练数据就可以获得与最新方法相当的性能,这也说明该方法可以有效利用未标记的目标视频来适应各种变化。
图像超分辨率
基于通道注意的迭代残差学习深度图超分辨率
随着深度信息应用的日益广泛,深度图像超分辨率问题引起了众多研究者的关注。深度超分辨率是指在低分辨率深度图像的基础上获得高质量的高分辨率深度图像。提出了一种深度图像的超分辨率方法。同时,分析了低分辨率深度图像的生成方法,提出了两种低分辨率深度图像生成的仿真方法:带噪声的非线性插值下采样生成方法和间隔下采样生成方法。
针对不同类型的低分辨率深度图像,本文采用迭代残差学习框架,以低分辨率深度图像为输入,以由粗到细的方式逐步恢复高分辨率深度图像的高频信息;同时采用通道增强策略,加强包含更多高频信息的通道在整个学习框架中的作用;此外,采用多阶段整合的策略,有效重用由粗到精过程中获得的有效信息;最后,利用TGV约束和输入损失函数对获得的高分辨率深度图像进行进一步优化。该方法能有效处理深度图像超分辨率问题。与目前已知的方法相比,具有明显的效果和优势。
车辆识别
用于细粒度对象理解的3D零件导向图像编辑
在自动驾驶场景下,准确感知车辆处于“特殊”状态对于行车安全非常重要(比如车门打开,乘客可能下车,尾灯闪烁表示即将变道)。为了解决这一问题,本文提出了一种新的数据合成(增强)方法,即通过对齐的组件级三维模型对2D图像中的车辆进行编辑,自动生成大量处于“特殊”状态(如开门、后备箱、引擎盖、闪烁的前大灯和尾灯)的车辆图像和语义标注结果。针对生成的训练数据,本文设计了一个双向主干网络,使模型可以推广到真实的测试数据。与传统的模型渲染方法相比,该方法平衡了域差异的问题,更加轻便。
为了验证该方法的有效性,构建了CUS(非常态车辆)数据集,对真实街道场景中大约1400幅处于非常态的车辆图像进行了标记。实验结果表明,本文提出的方法能够有效地检测出处于“特殊”状态的车辆,在实例级分割整车,分割部件语义,描述状态,对自动驾驶的安全决策具有重要意义。
神经网络体系结构搜索
基于高斯过程的神经架构搜索
通过自动搜索深度神经网络的模型结构,NAS(Neural Architecture Search)在各种计算机视觉任务中超越了手动设计的模型结构的性能。本文旨在解决NAS中的三个重要问题:(1)如何度量模型结构与其性能之间的相关性?(2)如何评价不同模型结构之间的相关性?(3)如何用少量样本学习这些相关性?因此,本文首先从贝叶斯的角度对这些相关性进行建模。
首先,介绍了一种新的基于高斯过程的NAS(GP-NAS)方法,并通过定制的核函数和均值函数对相关性进行建模。此外,均值函数和核函数都可以在线学习,从而实现不同搜索空间中复杂相关性的自适应建模。此外,结合基于互信息的采样方法,可以用最少的采样次数估计/学习GP-NAS的均值函数和核函数。在学习了均值函数和核函数后,GP-NAS可以预测任意模型结构在不同场景和平台下的性能,理论上可以得到这些性能的置信度。在CIFAR10和ImageNet上的大量实验证明了算法的有效性,并获得了SOTA的实验结果。
BFBox:搜索适合人脸的主干和特征金字塔网络,用于鲁棒的人脸检测器
本文BFBox是一种基于神经网络架构的搜索方法,搜索适合人脸检测的特征提取器和特征金字塔。动机是我们发现了一个有趣的现象:目前流行的为图像分类任务设计的特征提取器,已经在一般的目标检测任务中验证了其重要的兼容性,但在人脸检测任务中却没有达到预期的效果。同时,不同特征提取器和特征金字塔的组合并不是完全正相关的。首先,本文分析了较好的特征提取器,提出了适合人脸的搜索空间。其次,提出了特征金字塔注意模块(FPN-注意模块)来加强特征提取器和特征金字塔之间的联系。最后,通过SNAS的方法同时搜索出适合人脸的特征提取器和特征金字塔结构。在多个数据集上的实验表明了BFBox方法的优越性。
结构设计
用于视觉识别的门控通道变换
本文针对深度卷积神经网络提出了一种传统且易于使用的变换单元,即门控通道变换(GCT)模块。GCT将规范化方法与注意机制相结合,使用轻量级且易于分析的变量来隐式学习网络通道之间的关系。这些信道幅度变量可以直接影响神经元之间的竞争或合作行为,并可以方便地与卷积网络本身的权重参数一起参与训练。通过引入归一化方法,GCT模块比SE-Nets的SE模块轻得多,这使得可以在每个卷积层上部署GCT,而不会使网络变得过于臃肿。本文在几个大型数据集上对几个基本的视觉任务进行了充分的实验,即ImageNet数据集上的图像分类、COCO上的物体检测和实例分割以及Kinetics上的视频分类。在这些视觉任务中,GCT模块的引入可以带来明显的性能提升。大量实验充分证明了GCT模块的有效性。
表征学习
用于长尾视觉识别的标签隔离记忆
实际场景中的数据通常遵循“长尾”分布。大量类别数据较少,少数类别数据充足。为了解决类不平衡问题,引入了用于长尾视觉识别的类隔离记忆结构。首先,LIM增强了卷积神经网络快速学习尾部类特征的能力。LIM通过存储每个类别的最重要类别特征并独立更新存储单元,进一步降低了分类器学习偏差的可能性。其次,本文提出了一种新的多尺度空间特征编码的区域自注意机制。为了提高尾类识别的通用性,结合更多的区别特征是有益的。本文提出对局部特征图进行多尺度编码,并融合背景信息。结合LIM和区域自我注意机制,该方法在五个数据集上取得了最佳性能。
CVPR是计算机视觉领域的顶级国际会议。百度能在CVPR保持多年优势,背后是——百度大脑,多年百度AI技术积累和商业实践的集大成者。百度大脑AI开放平台对外开放了240项核心AI能力。除了在国际领域获得诸多成功的视觉技术,其语音、人脸、NLP、OCR等技术也取得了不错的成绩,通话量国内第一。未来,百度将继续打磨和创新人工智能技术,从顶尖的学术研究、前瞻性的技术布局和行业内的深入应用,为全球科技发展贡献力量。(陈瑞)
暂无讨论,说说你的看法吧