基于几何单目3D目标检测的密集几何约束深度估计器

摘要
由于深度信息的缺失,从单目图像估计物体的准确3d位置是一个具有挑战性的问题。之前的工作表明,利用目标的关键点投影约束来估计多个候选深度可以提高检测性能。然而,现有方法只能利用垂直边缘作为深度估计的投影约束。所以这些方法只利用了少量的投影约束,产生的深度候选不足,导致深度估计不准确。论文提出了一种可以利用来自任何方向边缘的密集投影约束方法。通过这种方式,论文使用了更多的投影约束并输出了更多的候选深度。此外,论文提出了一个图匹配加权模块来合并候选深度。本文提出的方法名为dcd(densely constrained detector),在 kitti 和 wod基准上实现了最先进的性能。
之前算法存在的问题在于它们的几何约束不足。具体来说,一些现有的方法估计2d边界框和3d边界框的高度,然后利用2d到3d高度投影约束生成目标的深度候选。最终的深度是通过对所有候选深度进行加权来生成的。如下图所示,该方法仅适用于垂直边缘,这意味着它们只使用少量约束和3d先验,导致深度估计的不准确。
方法
dcd的框架的如下图所示。dcd使用单阶段检测器从单目图像中检测目标。论文提出了密集几何约束深度估计器(dgde,densely geometric-constrained depth estimator),它可以计算任何方向的2d-3d边缘的深度。dgde可以有效地利用目标的语义关键点并产生更多的深度候选。此外,论文利用回归得到的2d边缘、3d边缘和方向作为2d-3d边缘图匹配网络的输入。所提出的图匹配加权模块 (gmw,graph matching weighting module) 匹配每个2d-3d边缘并输出匹配分数。通过将多个深度与其相应的匹配分数相结合,论文最终可以为目标生成一个稳健的深度。
geometric-based 3d detection definition
基于几何的单目3d目标检测通过2d-3d投影约束估计目标的位置。具体来说,网络预测目标的尺寸(),旋转角。假设一个目标有n个语义关键点,论文回归第i个关键点在图像坐标中的2d坐标和object frame中的3d坐标。object frame的坐标原点是目标的中心点。给定n个语义2d-3d关键点投影约束,解决3d目标位置是一个超定问题,它是用于将点云将从object frame转换到camera frame的平移向量。生成每个目标的语义关键点的方法改编自。论文通过pca建立了一些汽车模型,并通过从点云和2d mask中分割出来的3d点云来细化模型。在获得关键点后,就可以使用dgde从关键点投影约束中估计目标的深度。
densely geometric-constrained depth estimation
虽然以前的深度估计方法[51]只考虑了垂直边缘,但dgde可以处理任意方向的边缘。因此,论文能够利用更多的约束来估计每个深度候选的深度。
该方法基于关键点从3d空间到2d图像的投影关系。第i个关键点的3d坐标在object frame中定义,并通过以下等式投影到2d图像平面上:
其中是第i个关键点的深度,k是相机内参,k,r,t 表示为:
通过上述两式,第i个关键点的投影约束方程记为:
第j个关键点投影约束方程与上式类似,进一步可以从第i个、第 j 个关键点投影约束中得到深度估计:
这个方程表明深度可以通过任意方向边缘的投影约束来计算。
给定n个关键点,论文生成m=n(n-1)/2 个深度候选。与此同时,不可避免地会遇到一些低质量的深度候选。因此,需要适当的加权方法来集成这些深度候选。
depth weighting by graph matching
利用dgde估计目标的深度候选时,目标的最终深度可以根据根据估计质量进行加权:
接下来介绍论文提出的新的加权方法——graph matching weighting module (gmw)。
graph construction and edge feature extraction:论文构造了2d关键点图和3d关键点图。3d关键点图与2d关键点图基本一致,唯一的区别是顶点坐标是2d坐标还是3d坐标。2d和3d边缘特征提取器[47]如下所示:
fc、cn、bn、relu 分别表示全连接层、context normalization [47]、batch normalization 和 relu。值得一提的是,context normalization 提取了所有边的全局信息。
graph matching layer:给定提取的2d和3d边缘特征,根据在边缘s上的2d特征和边缘t上的3d特征之间的l2距离计算如下损失:
然后论文将m作为sinkhorn layer[4]的输入来获得分配矩阵p。sinkhorn layer通过最小化下述目标函数来迭代优化p:
loss function:设计如下所示的回归损失来监督最终的加权深度,并使用分类损失来监督图匹配:
实验结果
kitti上的实验结果,优势比较明显。
可视化:
更多的实验结果如下表所示:
消融实验
dcd可以比基线更准确地估计深度。
gmw和边数量的消融实验
关于dcd和autoshape的讨论
尽管dcd和autoshape都利用多个关键点来估计目标的位置,但存在如下关键差异:
autoshape直接使用所有2d-3d关键点投影约束来求解对象目标深度。dcd则从每个边缘约束中求解一个深度候选。因此,dcd的边缘约束不仅数量多,而且比关键点约束的阶数更高;


赛灵思重回DAC并提出关键问题:能用All Programmable为何还用ASIC?
中国人工智能安防峰会上云天励飞作为深圳代表获“五大城市代表企业奖”
一张图了解嵌入式系统启动流程
关于物联网串口WIFI模块8个小知识的介绍
高端化和差异化始终是萦绕在手机市场中的话题
基于几何单目3D目标检测的密集几何约束深度估计器
魅蓝note6发布会地点确定:魅蓝note6真机、配置、价格发布会亮点提前看,下午三点,北京演艺中心不见不散
应对先进工艺碳排放挑战,Imec开发晶圆厂可持续发展评估模型
微软为Surface Pro X设备发布两款键盘产品
市占率超对手两倍,风河领先全球嵌入式市场
【Si24R2F+ Demo板】介绍说明与使用建议
碳纤维SpeedX Leopard智能自行车体验出众
英飞凌同步整流500kHz 200W LLC评估板
助力高质量发展|软通动力参与制定《信息技术服务 数字化转型 成熟度模型与评估》国家标准
赛灵思 Versal:单芯片内的精准同步
吧5G SIM卡置入无人机到底可不可以
DRAM连涨七个季度 发改委进入调查是否触及垄断问题
中国联通将联合京东物流利用5G技术助推物流向智能物流转型升级
自动磨机轴磨损原因及修复方法
PCB线路板上星月孔的制作步骤