论文题目:eai-stereo: error aware iterative network forstereo matching
作者:haoliang zhao ;huizhou zhou
作者机构:北京大学深圳研究生院赵勇团队诡谷子人工智能开放实验室
论文链接:https://openaccess.thecvf.com/content/accv2022/papers/zhao_eai-stereo_error_aware_iterative_network_for_stereo_matching_accv_2022_paper.pdf
项目代码:https://github.com/david-zhao-1997/eai-stereo(论文中提到的开源代码已经没有了)
github代码:https://github.com/smartadpole/eai-stereo(这里是github中开源的eai-stereo)
由诡谷子ai开放实验室开发的双目视觉立体匹配算法eaistereo ( eai-stereo: error aware iterative network for stereo matching),针对立体匹配算法中未充分利用高频信息而导致相对模糊的问题,提出了一种误差感知细化模块,将来自原始图像的高频信息结合进来进行误差校正,生成出精细的细节和尖锐的边缘。另外,为了提高数据传输效率,作者还提出了迭代多尺度宽式长短时记忆网络。实验证明,该方法在多个数据集上取得了良好的效果,并且在 middlebury 排行榜和 eth3d 立体基准测试上表现出色。
1 前言
估计像素对应关系的问题是立体匹配的任务。传统立体匹配算法有四步骤:匹配代价计算、代价聚合、视差计算和优化。学习式方法与传统方法相比,通常产生更准确和平滑的视差图,并具有较高的计算速度。其中一些挑战是恢复薄物体和锐利边缘的低效率问题、基于gru的迭代结构的不足和学习方法的推广能力问题。eai-stereo是解决这个问题的方法,它使用了一种误差感知的迭代结构。
本文提出了一种新的端到端数据驱动的立体匹配方法eai-stereo(error aware iterative stereo)。本文的主要贡献如下:
提出了一种错误感知的细化模块,它将左右变形与基于学习的上采样相结合。通过将包含更多高频信息的原始左图像和显式计算误差图相结合,文章的细化模块使网络能够更好地应对过度曝光、欠曝光以及弱纹理,并允许网络学习纠错能力,从而使eai-stereo能够产生极端细节和锐利边缘。模块中的基于学习的上采样方法与双线性插值相比,可以提供更精细的上采样结果。作者仔细研究了模块微观结构对性能的影响。从实验中,作者发现该结构可以提高泛化能力并提高性能。该方法具有很高的通用性,可以应用于所有产生视差或深度图的模型。
提出了一种高效的迭代更新模块,称为multiscale wide-lstm,它可以有效地将来自特征提取、代价体积和当前状态的多尺度信息相结合,从而增强每次迭代之间的信息传递。
提出了一种灵活的整体结构,可以平衡推理速度和准确性。可以在不重新训练网络甚至在运行时进行权衡。迭代次数也可以根据最小帧速率动态确定。
2 相关背景
立体匹配领域中的数据驱动方法占据了主导地位。为了提高准确性,许多研究者采用了3d卷积和金字塔结构。为了降低计算成本,一些方法使用新的方式避免了使用3d卷积。一些其他的新方法,例如引入域归一化和基于非局部图的滤波器,都提高了网络的准确性和泛化能力。这些方法极大地促进了立体视觉领域的发展,并在立体匹配任务上取得了很高的性能。
随着深度学习的发展,迭代神经网络在立体匹配和光流场估计等领域中得到了广泛应用。人们通过改进迭代模块,利用较小的网络替换单个重量级前馈网络。这种方法大大降低了计算复杂度。同时,改进的迭代模块在立体匹配中也取得了更好的性能。现有的gru也逐渐成为迭代模型中的瓶颈,因此需要更好的迭代模块来进一步提高性能。
3 方法
本文的网络将一对矫正后的图像il和ir作为输入。然后提取特征并将其注入成本体积中。多尺度迭代模块从成本体积中检索数据并迭代更新视差图。最后,迭代的1/4分辨率视差图被馈送到错误感知细化模块中,该模块可以执行学习的上采样和错误感知纠正以获得最终的视差图。
3.1 multi-scale feature extractor - 多尺度特征提取器
在这一部分,作者使用类似resnet的网络作为特征提取器,利用两个共享权重的提取器提取一对图像il和ir的特征图,用于构建3d相关体积,遵循raft-stereo的方法。该网络由一系列残差块组成,然后是两个下采样层,用于提供多尺度信息fh,fm和fl给接下来的迭代宽lstm模块。特征图fh,fm和fl的空间大小是原始输入图像尺寸的1/4、1/8和1/16。
3.2 iterative multiscale wide-lstm network - 迭代多尺度wide-lstm网络
在这一部分,作者提出了一种高效的迭代更新模块,称为multiscale wide-lstm,可以有效地结合特征提取、成本体积和当前状态的信息,并提高每次迭代之间的信息传递。多尺度迭代模块,扩展了迭代模块的宽度,三个子模块各自建立了两条数据路径c和h,连接前后迭代模块,更高效地进行信息传递。采用多尺度的优势在于可以在每个尺度上使用不同的迭代子模块,而较低分辨率的特征图像素较少,可以执行比较耗时的操作。
3.3. error aware refinement - 错误感知细化
在这一部分,作者提出了一种error aware refinement模型,主要解决了传统模型忽略高频信息的问题,提高了模型的精度和细节保留能力。具体来说,模型首先使用learned upsampling将lstm网络预测的1/4分辨率的原始视差图上采样,再使用卷积层生成一个上采样mask,并利用凸上采样方法得到与原始图像大小相同的视差图。然后,在error aware模块中,模型通过误差感知,利用右图像进行重建,计算出误差地图,再与左图像一起送入hourglass模型中进行细化操作,最终得到最终的视差图。在整个模型过程中,考虑了不同形式的误差信息的融合,并在微结构上进行了优化,提高了模型的性能表现。
4 实验
4.1 模型训练
本文中的eai-stereo模型基于pytorch实现,使用两个tesla a100 gpu进行训练。所有模型均使用adamw优化器进行训练,权重衰减为 。学习率的预热阶段占整个训练计划的1%。在所有实验中,我们使用数据增强方法,其中包括饱和度变化、图像扰动和随机尺度。在所有预训练中,我们使用了scene flow数据集进行200k次迭代的训练,学习率为 。
4.2 评估
eai-stereo在三个不同的视觉数据集上(middlebury、eth3d、kitti-2015)的表现在多个指标上表现最佳。在kitti-2015数据集上,作者的方法通过在另一个数据集上的预训练和微调,在稀疏ground truth值上也有良好表现。该的方法在进行简单的数据增强时也展现出了强大的泛化性能。
4.3 cross-domain generalization - 跨领域泛化
作者使用与预训练完全相同的策略在scene flow数据集上训练我们的模型,然后直接使用权重进行评估。将eai-stereo的模型与一些最先进的方法和一些经典方法进行了比较。比较表明,该的方法在泛化性能方面明显优于专门为泛化性能设计的dsmnet和cfnet,且可以通过使用预训练和微调等简单策略来提高模型的性能。
4.4 ablations - 消融研究
评估了使用不同设置的eai-stereo的性能,包括不同的体系结构和不同数量的迭代。在迭代多尺度wide-lstm网络中,使用宽lstm模块可以显著提高性能,其d1误差可以减少10.14%,epe可以减少4.80%。错误感知细化模块用于上采样和细化工作。与宽lstm基准相比,采用扩张细化可以减少scene flow验证集上的d1误差2.81%,并使kitti验证集上的epe减少12.39%。迭代次数可以通过训练后调整,因此提高了模型的灵活性。在实际应用中,可以通过给定最低帧速率来推断迭代次数,在具有实时要求的场景中非常有用。
5 总结
作者提出了一种新颖的误差感知迭代网络用于立体匹配。进行了多次实验以确定模块的结构。实验结果表明,该模型在速度和准确性方面在各种数据集上表现良好,同时具有很强的泛化性能。
【转】VGA矩阵出现拖尾等现象时该怎么办?
中频变压器的工作原理及作用
直流电源屏蔽机制是怎样的?
长飞公司总裁庄丹:行业的典范,助力提升数字化转型水平
在AI、物联网等新技术推动下 传感器助力企业向数字化转型升级
DLNR还没来,先看EAI-stereo!
SUSE对Red Hat最近限制其源代码的行动发表声明
三平衡混频器,三平衡混频器是什么意思
iPhone 12系列新机的屏幕效果如何?
中国移动正式公布2019年普通光缆集采中标候选人
区块链将如何去发展
美国又一城市打算安装LED路灯 投资五年内收回成本
小米笔记本Air新品发布,更适合经常出差或者旅行的用户
技术驱动,数据赋能,华为云 GaussDB 给世界一个更优选择
新型消毒机器人上岗 助力打赢疫情防控阻击战
单模光纤与多模光纤有什么区别
还在等小米6发布? OPPO R11将会带来更多的惊喜
数据中心芯片中人工智能加速器的五个设计注意事项
5G消息重构服务入口,建立良性循环生态圈
华为火力太猛!理想全军商讨:锁定为最强对手,不再直接迎战