CV2020 | 3D-VID:基于激光雷达视频信息的3D目标检测框架

作者:蒋天园

Date:2023-04-18

来源:自动驾驶中点云学习研究综述

Brief

paper地址: https://arxiv.org/pdf/2004.01389.pdf

代码地址: https://github.com/yinjunbo/3DVID

这是北理工和百度合作的报道,目前没有开源,只是项目地址,于2023年3月放在arxiv上,被CVPR2023接收。 从标题推测,本文采用的时空信息融合多帧点云信息进行3D目标检测。 目前还没有以视频流方式进行3D目标检测的研究。 但是,这也是数据集必须是连续的帧才能完成这样的任务,而凯蒂猫确实不能满足这样的要求,所以作者在Nuscence上进行了实验。 这是CVPR19年发布的数据集。 这里显示的是当前发表的nuscence的排名。 这里的排行榜1的文章现在正在重建SECOND的代码,引入更多的SOTA的方法来开放源代码新的3Ddetection base,即Det 3D项目。 对于https://github.com/poodarchu/det3d,MEGV是采用多尺度检测的头,规定对不同大小的物体的检测采用不同的头,同时采用数据扩展方式,nu scch

正文的主要内容

本文的主要内容可以简要概括,在目前的SoTA文章中,第一个使用3D视频点云进行3D目标检测的,是利用前人未使用的帧与帧之间的时间连续关系,为此,作者提出了point pilot 扩大了各节点感受域,然后根据得到的空间特征将GRU发送到以基础模块为基础构建的时空特征融合模块,获得了连续帧间更丰富的特征信息。 在该模块中,作者分别运用空间注意力和“时间”注意力机制对前景物体进行更多的关注和运动物体定位。 虽然本论文不是面向问题的想法,而是引入了新奇的思想,但是有人指出,用以前的方法发生的FP问题在本论文中可以得到一定程度的环境。 与面向问题的报道3DSSD相比,本文的内容更为广泛。

基于Abstract当前LiDar输入的目标检测网络均仅使用单帧信息,不使用连续点云之间的时空信息。 因此,作者提出了一种处理点云序列end2end的在线视频检测方法。 本文提出的模型由空间特征编码模块和时空特征融合模块两部分组成。 这里的空间特征编码模块—— PMP net ( pillarmessagepassingnetwork )用于编码独立帧的点云特征。 该模块通过反复消息收发,从相邻节点自适应地收集此pillarnode的节点信息,有效地扩大了此pillarnode的感受范围。 时空特征融合模块采用集成GRU设计( AST-GRU )和时空信息的时空注意力,该模块通过attentivememory gate增强传统的ConvGRU。 其中,AST-GRU模块包括空间注意模块( STA )和TTA模块( TemporalTransformer Attention ),使AST-GRU能够识别与前景物体对位的动态物体。 在nuscence中获得了sota的效果1. Introductionpoint cloud video的定义点云视频是一组点云帧的集合,在数据集nuscence中,采用的32线是每秒能够捕获20帧点云的激光器单帧检测方法的弊端是,如果采用单帧图像的直接处理,单帧图像必须受到单帧图像稀疏性的过大影响,甚至严重的话,距离和遮挡是单帧检测方法的主要障碍。 如下图所示,在最高级别的检查中经常会得到False-negative的结果,但是本论文提出的online3D video检查方法可以得到更好的效果。 这是因为point cloud视频具有更丰富的物体特征。 目前流行的单帧检测方法有基于voxel-based的voxelnet、second、pointPillars和point-based pointrcnn等,本文作者也采用这种pillar分割方法提取特征为此,作者对此提出了基于graph-based的方法构建PMPnet核心问题(1) 3d视频目标检测的关键问题是如何对连续时空特征信息进行建模表示。 本文提出了融合graph-based空间编码特征的模块,并结合时空注意力感知模块进行视频一致性。 )前述作者为了改变Pillars的特征提取一个Pillar中的特征问题,自行设计了PMPnet。 该网络以每个非空pillar作为图的一个节点,通过mesh从相邻节点融合特征来扩展感受范围,PMPnet在K-NNgraph上采用迭代方法可以深入挖掘不同的pillaph ) 仅在同一帧空间内提取更多感受野的特征信息,将这些单帧特征融合到作者设计的第二网络结构AST-GRU中。 ConvGRU这篇ICLR16年的文章在2Dvideo上证实了ConvGRU是非常有效的,在作者设计的AST-GRU通过一项工作)平面图中,前景物体只占一小部分区域,背景点在大部分区域由于这在迭代过程中背景噪声越来越大,作者采用空间注意模块来缓解背景噪声,增强前景物体。 )更新memory时,旧的空间特征和新的输入之间存在对准偏差。 如果是静态物体,可以采用ego-pose信息配准,但是在具有较大运动幅度的动态物体中是不可能的。 为了解决这一问题,作者采用了短注意力机制( TTA )模块,自适应地捕捉连续帧中的运动关系。 总体设计作者首先通过PMPNet模块自适应放大感受野各帧的空间特征,然后将输出的特征序列送入AST-GRU模块。 2. Related Work正文本章主要使用基于点云检测方法的backbone和graph-based方法,因此主要介绍两者。

1 .基本对象检测

作者同样将基于lidar的方法分为三类,介绍了基于点、基于矢量和多传感器的方法,前面两种方法在前一篇博文中已有相当详细的介绍,在此不再赘述。 多传感器的研究方法多为18年前,最新报道有19年的MVF和AAAI的PIRCNN,均采用影像与lidar输入相结合的检测方法,目前主要有两种,一种是特征融合后提出蜂胶

2.Graph Neural Networks

图形神经网络( Graph Neural Networks,GNNs )最初由Gori等人引入,用于对图表结构数据的内在关系进行模型化。 然后Scarselli等人将其扩展为不同类型的图。 之后的GNN研究可以分为两个方向。 (1)第一个研究方向是使用门机制使信息能够在图中传播。 例如,使用RNN描述各节点的状态,或者将图形推论概括为参数化的消息收发网络。 )2)另一个研究方向是将CNN引入GNN,因此GNN在这个方向上也可以称为GCNN。 本文作者PMPnet是属于第一个方向的内容,用于通过门消息策略捕获pillar特征,并对各帧的点云进行特征提取。

3 .模型架构的总体结构图如下,主要包括空间特征码和时空特征融合两个模块: 前者对逐帧点云提取空间特征,后者采用空间和时间上的注意机制对提取的特征序列进行融合。

作者首先通过GPS信息将当前帧前一帧的点云对应的坐标转换为当前帧,目的是消除运动的影响,使静止物体在帧间对齐。 然后利用PMPnet提取空间特征和AST-GRU进行时空特征融合。

3.1 PMPnet

作者指出了一种提取以前voxel特征的方法——vfe (在voxel net中被提出,其中SECOND1.0和pointpillars中也被使用)。 由于感受野的问题,无法完全发挥出voxel的特征(实际上,后续有时会使用3DCNN或稀疏卷积进行再提取,所以扩大了感受野吧。 不过,在VFE层中对于单一的Voxel,这里这一部分是为了解决将非空的pillar作为节点,将其构建成图表结构的问题。(,作者说,该图表结构有效地保留了非欧式的原始结构。 (流型结构为非欧式结构,点云扫描获得的都是表面点,可以这样理解。 我记得由pillar构造的图的结构

前者表示非空的pillar,后者表示边的特征。 这里作者给出了本文采用了K-NN建设图,并采用了周围最近的一些pillar作为邻居节点。 通过重复更新特征( inversion pillar ),假设单个pillar节点是初始特征,并且可以在pillar中使用PFE (简化版pointnet )来提取初始特征,整体执行过程如下

1 .获得初始特征:

,此处显示了pillar节点中的点。

2 .特征在图网络中传播:

)1)如下图所示,假设表示第s次迭代时坐在边上的形状,左上表示当前图的感受范围。 可以看出,此时的只是相关的,与的特征无关,在点云中表示左上的形状。 s 1次迭代后,可见特征融合,获得了新的更大感觉野特征。

)上图中的mj,I表示两节点间的信息传递,作者对s 1次的信息传递做了如下定义。

这里的hi表示节点的特征,

是边缘特征,边缘特征直接定义,上式表示根据第s次边缘和节点特征得到第s 1次信息传递特征,方式为FC层连接。 但是,由于一个节点可能有多个相邻的节点,所以通过了

在更新当前节点特征之前,需要融合周围所有节点的传递信息以获得最终的传递信息; 采用最大池化:

之后,得到根据

要更新当前节点特性,请执行以下操作:

上述迭代使节点vi包含所有邻居节点的特征信息,并且邻居节点也包含邻居节点的特征; 因此,当第s次迭代完全完成时,该点的特征也聚集了邻居的特征,与各节点特征对应的感觉野信息进一步扩大。

(3)传递特征后,利用二维卷积进一步提取高维语义信息。 总的来说,上述backbone只是比pointpillars传递了更多的信息,剩下的两步( PFE,2DCNN )是一样的。

3.2 AST-GRU直接采用传统的ConvGRU融合上述backbone得到的特征,可以得到两个问题。

1 .点云在bev视图中的前景占有率很小,feamap统计了188像素的值。 背景点太多的话背景噪声会主导哦Menory。

2 .问题2是在连续帧内,静态物体可以被GPS信息定位,但动态物体是不可能的。 针对上述两个问题,作者的应对方法是在空间和时间中采用注意力机制sta ( spatialtransformerattention )和TTA ( temporaltransformerattention ) 如下图所示,STA模块集中于空间内的前景信息,输出新的GRU的输入fea map; TTA模块对输入的memory特征中的动态物体进行定位,输出定位后的memory信息。

上图中的核心组件分为以下三个部分:

)1) vanillaconvGRU ) convGRU为卷积形式的GRU,与FC的GRU相比参数少,空间表现能力好,同时与LSTM相比收敛少(时间,其工作模式如下用视频说明gru、LSTM的动作模式。 链接: https://种子

文中,使用以下公式,表示用旧的memory的状态和输入得到新的memory的状态的过程。

其中,字符所表示的含义如下表所示。

结合上述视频,可以比较清楚地了解本文中GRU的运行流程。

2 ) STA空间注意模块

与传统的空间注意机制相似,作者设计了对输入的fea map的每个像素采用加权方法,采用以下公式:

这里的代表意义如下

即,上述公式表示对目标pix的输出是附近pix的加权值和附近信息的卷积。 (3) TTA时间注意机制如上所述,该模块用于运动物体的配准,作者旨在通过改进DCN结构,即可变卷积结构,融合运动信息自适应筛选关键支撑区域。 DCN的简化可以用以下公式表示:

其中,下表表示文字的意思。

带入TTA模块的输入和空间注意模块的输出,可以表示如下。

实际上,在TTA模块中邻域信息也起到了非常重要的作用,该TTA模块有偏移

pm决定了上表中所述的这里的偏移在卷积层中被学习,并表示为如下

其中包括:

ils一般来说,该模块为了对准动态物体,将上次的memory和这次的feamap作为输入,预测了偏移值

,并结合以下menory特征获得新输入:

3.3网络数据(1)在提取PMPnet1.pillar特征时,也采用最大轮询的形式)2.中间基于图形的消息传递将边缘到节点的特征而不是所有连接层) Backbone Module与传统的lidar-based方法相同,鲜有介绍。

)3) AST-GRU Module其中所采用的卷积核的大小均为33,除非使用11卷积代替所有连接。

)4) Detection Head该结构的输入是经过AST-GRU迭代到最后的menory feature,loss函数与其他lidar-based方法一致,采用L1 loss和focal loss。

4 .外部结果简要介绍作者在nuscenes数据集上进行了测试,nuscene数据集简要介绍:该数据采集由6个摄像头、1个LIDAR、5个RADAR、nuscene数据集

1000个场景,每个场景20s,这些场景都经过人类专家精心注释传感器的放置位置和采集到的数据的命名。 数据注释: (1)对同步良好的关键帧(成像、激光雷达、雷达) 2Hz采样,发送给我们的注释软件Scale进行注释。

)2) nuScenes数据集中的所有对象都具有语义类别以及它们出现的每个帧的3D边界框和属性。

)3)共有23个对象(截图不完整) ) ) ) ) ) )。

总共有1000多个场景,其中700个提供给训练,150个场景作为测试提供。 大约是kitty 7倍左右的视频中,每隔0.5s标记一个关键帧,并融合10个非关键帧。 含有信息。 其中最后的信息不包含在KITTI中。 表示远离关键帧。时间是0到0~0.45。 详细情况请在官方网站的文档中详细讨论。 这里就不多介绍了。 本文用nuscenes而不是KIITTI进行实验的理由是KITTI没有提供3d视频。

对于实现的详细关键帧,将输入场景大小设定为[ 50,50 ][ 50,50 ][ 5,3 ],并且将Pillar的区分设定为[0.50.5]。 点云数的输入为16384,从原始2w点云采样获得。 每个pillar包含最多60个点云,第一个输入维为5。 在GNN中维变为64,最终在backbone中的fea map为100100384 (类似于voxel net的双层concat )质量性能如下图所示,nuscenes的10种目标检测

烧蚀实验下图显示了在pointpillars中追加本论文提出的模块后的性能提高。 最后的指标不仅是检测出的IOU值,还与其他很多指标进行了加权,并在官网上进行了介绍。

推荐文献[1] delvingdeeperintoconvolutionalnetworksforlearningvideorepresentations [2] fastpointr-CNN [3] 阅读graphconvolutionalnetworks:semisupervisedlearningviagaussianprocesses [4] deeephoughvotingfor3dobjectdectionionpointclontclon

其他教程

3dmax本机渲染和云渲染颜色不一样,3dmax实时渲染跟最终渲染不一样

2022-12-30 20:38:22

其他教程

小度家庭智能屏X8正式发布!比一个手势和一个眼神更容易控制。

2022-12-30 20:40:26

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索