全文总结
元宝
研究背景
研究问题:
这篇文章旨在解决多模态3D检测中稀疏检测器的性能问题。尽管稀疏检测器在计算成本和下游任务适应性方面优于基于鸟瞰图(BEV)的检测器,但现有的稀疏检测器忽略了token表示的质量,导致前景质量不佳和性能有限。
研究难点:
该问题的研究难点在于如何提高稀疏检测器中token的质量,特别是在几何结构和类别分布方面的优化。现有的token采样策略依赖于简单的top-k操作,容易导致小物体token的丢失和对象边界的缺失。
相关工作:
现有工作主要包括基于LiDAR的3D检测、基于相机的3D检测和多模态3D检测。基于LiDAR的检测器利用点云的几何信息进行精确定位,而基于相机的检测器则通过多视图图像捕捉丰富的语义信息。多模态3D检测方法通过融合LiDAR和相机数据,利用两者的互补优势来提高检测性能。
研究方法
本文提出了一种名为CrossRay3D的稀疏多模态检测器,主要通过Sparse Selector (SS)模块来提高token采样的质量。具体方法如下:
Sparse Selector (SS):
Ray-Aware Supervision (RAS): 通过在训练阶段恢复高几何信息,利用从光学中心到物体的射线作为对象结构导向的监督,生成高结构前景token。具体来说,RAS通过射线与地面真实框的交集来标记正负样本,并通过卷积操作进行token采样。
Class-balancedSupervision (CBS): 通过调整token的显著性权重,避免在token采样过程中丢失小物体token。CBS损失函数根据地面真实类别的分布重新加权token的显著性,公式如下:
Wn={λ,Sigmoid(max(y^n,c)), if n∈ distribution, otherwise,其中,λ≥1是超参数,y^n,c是第n个token的类别概率分布。
Ray Positional Encoding (Ray PE):
为了解决图像和LiDAR数据之间的分布差异,提出了Ray PE,通过采样3D锚点沿射线生成位置编码,映射相机和BEV位置编码到统一的3D空间,实现多模态特征的直接交互。
Decoder and Loss:
使用标准的Transformer解码器,通过Ray PE和潜在空间,查询与多模态稀疏token直接交互,预测3D边界框。损失函数包括CBS损失、分类损失和回归损失,公式如下:
L=ω1Lt+Lcls(c,c^)+Lreg(b,b^),
其中,ω1是平衡CBS损失的超参数。
实验设计
数据集:
实验在nuScenes数据集上进行,该数据集包含1000个场景,分为训练集、验证集和测试集,分别包含700、150和150个场景。每个场景包含6个摄像头和1个LiDAR传感器的数据。
评估指标:
使用官方的nuScenes指标,包括nuScenes Detection Score (NDS)、mean Average Precision (mAP)、mean Average Translation Error (mATE)等。
实现细节:
图像特征提取使用ResNet50,LiDAR特征提取使用3D稀疏骨干网络。模型在2个A40 GPU上训练20个epoch,批量大小为12。
结果与分析
主要结果:
在nuScenes测试集上,CrossRay3D达到了74.7%的NDS和72.4%的mAP,超过了现有的最先进方法,并且在推理速度上是其他领先方法的两倍。
在nuScenes验证集上,CrossRay3D也表现出色,特别是在处理遮挡和远距离小物体方面。
消融实验:
RAS的效果: 添加RAS后,CrossRay3D在NDS和mAP上分别提高了1.4%和1.6%,并且计算成本仅增加了0.1 FPS。
CBS的效果: CBS损失函数在类平衡监督方面表现出色,特别是在小物体(如障碍物和交通锥)的AP上提高了0.3%。
Ray PE的效果: 添加Ray PE后,mAP显著提高了9.3%,证明了其在稀疏特征表示中的有效性。
Token保留比例的影响: 减少保留的token数量可以降低计算负载,同时保持较高的检测精度。
总体结论
本文提出了CrossRay3D,一种端到端的稀疏多模态检测器,通过几何结构和类别分布的联合优化,实现了高质量的token采样。实验结果表明,CrossRay3D在nuScenes数据集上达到了最先进的性能,并且在计算效率和鲁棒性方面具有显著优势。未来的工作将集中在进一步优化骨干网络和探索不同模态的互补优势。