MinkLoc3D (Komorowski, Warsaw University of Technology) 提出了基于稀疏体素化点云表示的大规模场景识别方法。该文章采用了稀疏3D卷积和广义平均池化进行特征提取和聚合,解决了之前基于无序点云表征的方法如PointNetVLAD捕获局部几何结构不足的问题。通过三元组损失函数和批量困难负样本挖掘进行训练,在标准测试集上显著提升了场景识别性能。
OverlapNet (Chen et al., University of Bonn) 提出了一种基于Siamese网络结构的激光雷达扫描相似性计算方法,用于回环检测和定位。该方法利用球面投影转换点云为图像表示,结合多种特征如深度、法线、强度和语义概率,实现了无需依赖相对位姿的相似性估计,在季节变化环境中表现出色。
LCDNet (Cattaneo et al., University of Freiburg) 开发了一种端到端学习框架,集成了回环检测和点云配准功能。通过基于非平衡最优传输理论的姿态回归网络,该方法能够处理大角度初始错位(如180°旋转)的点云配准,有效解决了反向回环检测这一难题。
OverlapTransformer (Ma et al., Beijing Institute of Technology) 聚焦于高效、偏航角不变的激光雷达场景识别。通过Transformer架构处理激光雷达深度图像,结合NetVLAD特征压缩,实现了每帧处理时间小于2毫秒的高速处理,并保持了对视角变化的稳健性。
CVTNet (Ma et al., Beijing Institute of Technology) 引入了跨视图变换器网络,同时利用激光雷达的范围图像视图和鸟瞰视图。通过视图内和视图间变换器提取特征关联,解决了单一视图表示信息不足的问题,为自动驾驶环境提供了稳健的场景识别解决方案。
PADLoC (Arce et al.) 利用全景注意力机制进行深度回环检测和配准。该方法在训练阶段利用全景分割注释提升点云匹配性能,但在推理阶段无需这些标注,通过结合语义分类和图连接分配的损失函数创新性地重构了匹配问题。
Contour Context (Jiang et al., Hong Kong University of Science and Technology) 提出了基于抽象结构分布的3D激光雷达回环检测方法。通过将鸟瞰图解释为分层结构,在不同高度切片创建轮廓并参数化,实现了高效拓扑回环检测和准确的3自由度度量姿态估计。
Fast and Accurate Deep Loop Closing and Relocalization (LCR-Net) (Shi et al., National University of Defense Technology) 建立了首个能同时处理回环闭合和重定位的激光雷达SLAM系统。该网络通过共享骨干网络编码点云为三种特征,分别在全局描述和密集匹配头处理,达到了候选检索、闭环点云配准和连续重定位的领先性能。
Multi-Constellation-Inspired Single-Shot Global LiDAR Localization (Zhang et al., Jilin University) 提出了一种基于多球方程系统的单次全局定位策略。通过观测点选择、轻量级里程计和多球迭代优化三步流程,实现了高精度位置估计(包括Z轴),平均定位误差仅为0.89米。
RLS-LCD (Zhang et al., Wuhan University) 针对旋转激光雷达扫描中视角变化导致的场景重叠不足问题,提出了基于子图识别的高效方法。该解决方案结合强度信息的全局描述符和粗到精策略,提高了相似结构场景中的识别精度。
Mercator Descriptor (Wang et al., Capital Normal University) 开发了一种基于墨卡托投影原理的点云数据处理方法。通过将点云分为纬度和经度扇区并提取深度信息,构建了具有旋转不变性的纬度键并存储在kd树中,实现了高效回环检测。
SGLC (Wang et al., National University of Defense Technology) 提出了基于语义图引导的粗-精-细回环闭合框架。该方法利用前景实例构建语义图快速生成描述符,通过从稀疏节点对齐到密集实例点和背景平面信息的三阶段注册方案,实现了实时的6自由度姿态估计。
RING# (Lu et al., Zhejiang University) 提出了一种通过PR-By-PE全局定位策略的旋转-平移等变Gram学习方法。该研究改变了传统的顺序场景识别和姿态估计范式,通过从姿态估计中推导场景识别,有效解决了级联错误问题,提高了全局定位成功率约20%。
表示方法演进:从早期的MinkLoc3D采用稀疏体素化表示,到OverlapNet的球面投影深度图,再到CVTNet的多视图多层生成,最后发展到RING#的等变表示,数据结构逐渐向多视角、多层次、高效表达能力方向发展。
语义增强:PADLoC和SGLC将语义信息融入数据结构,SGLC特别基于前景实例构建语义图抽象点云表示。
结构抽象:Contour Context和Mercator Descriptor通过抽象结构分布和投影原理实现紧凑表示。
网络架构:从MinkLoc3D的稀疏卷积,到OverlapTransformer和CVTNet的Transformer架构,算法设计逐渐向注意力机制和跨模态融合发展。
损失函数:LCDNet引入非平衡最优传输理论,PADLoC创新性结合语义分类和图连接分配损失,RING#设计等变表示学习。
配准策略:从早期的单一全局描述符匹配,发展到LCR-Net的多头特征提取和密集匹配,再到SGLC的粗-精-细三阶段注册方案。
视角不变性:OverlapTransformer和CVTNet解决了偏航角变化适应性问题。
反向回环:LCDNet成功处理大角度初始错位的点云配准。
场景重叠不足:RLS-LCD针对旋转激光雷达扫描视角变化导致的重叠不足提出子图识别方案。
两阶段级联错误:RING#通过PR-By-PE策略消除了顺序场景识别和姿态估计的级联错误。
极端环境条件:多数方法在极端天气或光照条件下的稳健性仍需改进。
稀疏数据处理:Contour Context在树木和开放区域等稀疏对象为主的数据集表现较差。
计算复杂度:尽管有所改进,但深度学习方法的实时性能仍需进一步优化。
语义分割质量依赖:SGLC依赖于语义分割质量,影响背景相似度计算的稳健性。
基于上述文献梳理,当前激光雷达回环检测研究呈现以下趋势:
深度学习主导:从传统的手工特征方法向端到端深度学习模型转变,特别是Transformer架构在解决长距离依赖关系方面优势明显。
多任务集成:回环检测与姿态估计、重定位等任务逐渐集成,如LCR-Net和SGLC实现了多功能一体化。
跨模态融合:利用不同视图和表示形式(范围图像、鸟瞰图、语义信息)的互补性提升性能,如CVTNet的跨视图融合。
实时性能追求:研究重视算法效率与准确性平衡,如OverlapTransformer的<2ms处理速度。
累积误差消除:回环检测作为SLAM系统关键组件,有效消除长时间导航中的累积误差。
全局定位能力:在GPS不可靠环境下提供可靠定位,为自动驾驶车辆提供关键安全保障。
环境适应性:相比视觉方法,激光雷达回环检测对光照和天气变化更稳健,适合全天候自动驾驶应用。
地图构建优化:通过精确回环检测,生成更加一致和精确的环境地图,支持高精度导航。
感知与定位割裂:多数方法将感知与定位视为独立任务,缺乏深度融合设计。
硬件协同优化缺失:研究主要集中在算法层面,较少考虑硬件加速架构设计。
传感器融合局限:尽管有多视图融合,但多传感器(激光雷达、摄像头、IMU等)协同优化研究相对不足。
极端场景挑战:在复杂城市环境、恶劣天气条件下的稳健性仍需加强。
| 文献 | 发表年份 | 主要任务 | 核心算法 | 优化策略 | 实验平台 | 性能指标 |
|---|---|---|---|---|---|---|
| MinkLoc3D | 2021 | 大规模场景识别 | 稀疏体素化卷积+GeM池化 | 三元组损失+批量困难负样本挖掘 | nVidia RTX 2080Ti | AR@1%: 97.9% (Oxford) |
| OverlapNet | 2022 | 回环检测+定位 | Siamese网络+球面投影 | 多特征融合(深度、法线、强度、语义) | 未明确说明 | 季节变化环境中稳健性优异 |
| LCDNet | 2022 | 回环检测+点云配准 | PV-RCNN+非平衡最优传输 | 端到端三元组损失训练 | 未明确说明 | 大角度初始错位配准性能优异 |
| OverlapTransformer | 2022 | 场景识别+回环检测 | Transformer+NetVLAD | 仅深度信息+轻量级设计 | 未明确说明 | <2ms/帧处理时间 |
| CVTNet | 2023 | 场景识别 | 跨视图Transformer | 范围图像和鸟瞰图融合 | Intel Xeon E+Nvidia Tesla T4 | <50ms/帧处理时间 |
| PADLoC | 2023 | 回环检测+点云配准 | 全景注意力Transformer | 语义与实例级特征学习 | 未明确说明 | KITTI上高AP和Max-F1分数 |
| Contour Context | 2023 | 回环检测+姿态估计 | 轮廓参数化+二阶段相似性检查 | 抽象结构分布表示 | Intel i7-9750H | Max F1: 0.939-0.988(KITTI) |
| LCR-Net | 2024 | 回环检测+重定位 | 多头网络+特征共享 | 关键点检测+全局描述+密集匹配 | 未明确说明 | 多数据集上SOTA性能 |
| Multi-Constellation | 2024 | 全局定位 | 多球方程迭代优化 | 全局描述符+轻量级里程计 | Intel i7-1165G7 | 平均定位误差0.89米 |
| RLS-LCD | 2024 | 回环检测 | 粗到精识别策略 | 子图识别+强度信息全局描述符 | Intel i7-1165G7 | 手持设备数据集优异性能 |
| Mercator Descriptor | 2024 | 回环检测 | 墨卡托投影+两步识别 | 旋转不变性纬度键 | 未明确说明 | 平均Max F1: 94.57% |
| SGLC | 2024 | 回环闭合+姿态估计 | 语义图引导+三阶段注册 | 粗-精-细配准策略 | AMD 3960X+NVIDIA RTX 3090 | KITTI上最佳F1max和EP指标 |
| RING# | 2025 | 全局定位 | 旋转-平移等变表示学习 | PR-By-PE范式转换 | 未明确说明 | 全局定位成功率提升约20% |
基础特征提取 → 深度学习表征 → 多模态融合 → 等变表示学习 → 通用自学习模型
单一回环检测 → 回环+姿态估计 → 回环+重定位+全局定位 → 完整SLAM一体化解决方案
通用CPU/GPU → FPGA加速特定模块 → 定制化ASIC → 异构计算平台
离线处理 → 服务器级实时 → 车载实时 → 低功耗边缘部署
基础理论:等变与不变性更深层次理论探索,解决大视角变化的挑战。
数据表征:多视图多模态表示学习,结合点云与语义信息的统一表示框架。
网络架构:轻量级高效Transformer及其变体,适合车载计算资源限制。
硬件协同:算法-硬件协同设计方案,专用加速器架构。
多传感器融合:激光雷达-视觉-IMU等传感器深度耦合方案。
极端环境适应:处理恶劣天气、动态场景、稀疏特征环境的鲁棒算法。
MinkLoc3D (2021):稀疏体素化表示奠定高效点云处理基础。
LCDNet (2022):解决反向回环检测难题,实现大角度初始错位配准。
OverlapTransformer (2022):高效轻量级设计将处理时间降至毫秒级。
LCR-Net (2024):首次实现回环检测与重定位统一框架。
RING# (2025):PR-By-PE范式变革消除级联错误问题。
算法与硬件割裂:缺乏端到端的算法-硬件协同优化设计。
能效与精度权衡:高精度模型能效较低,轻量级模型精度不足。
极端场景泛化性:在低光照、恶劣天气等边缘情况下性能仍有提升空间。
多传感器协同:不同传感器间的信息协同利用仍不充分。
低功耗高精度算法:面向资源受限平台的高效算法设计。
全功能统一框架:集成回环检测、重定位、全局定位于一体的端到端系统。
硬件加速架构:专为激光雷达回环检测优化的异构加速平台。
多传感器融合机制:激光雷达、视觉、IMU等多传感器的深度协同方案。
极端环境自适应:具备情境感知的自适应算法,提升复杂环境下的鲁棒性。
[1] J. Komorowski, "MinkLoc3D: Point Cloud Based Large-Scale Place Recognition," in Proc. IEEE/CVF Winter Conf. Appl. Comput. Vis., 2021, pp. 1790-1799.
[2] X. Chen, T. Läbe, A. Milioto, T. Röhling, J. Behley, and C. Stachniss, "OverlapNet: A Siamese Network for Computing LiDAR Scan Similarity with Applications to Loop Closing and Localization," Autonomous Robots, pp. 1-21, 2022.
[3] D. Cattaneo, M. Vaghi, and A. Valada, "LCDNet: Deep Loop Closure Detection and Point Cloud Registration for LiDAR SLAM," IEEE Trans. Robot., vol. 38, no. 4, pp. 2074-2093, 2022.
[4] J. Ma, J. Zhang, J. Xu, R. Ai, W. Gu, and X. Chen, "OverlapTransformer: An Efficient and Yaw-Angle-Invariant Transformer Network for LiDAR-Based Place Recognition," IEEE Robot. Autom. Lett., vol. 7, no. 3, pp. 6958-6965, 2022.
[5] J. Ma, G. Xiong, J. Xu, and X. Chen, "CVTNet: A Cross-View Transformer Network for LiDAR-Based Place Recognition in Autonomous Driving Environments," IEEE Trans. Ind. Informat., vol. 20, no. 3, pp. 4039-4048, 2023.
[6] J. Arce, N. Vödisch, D. Cattaneo, W. Burgard, and A. Valada, "PADLoC: LiDAR-Based Deep Loop Closure Detection and Registration Using Panoptic Attention," IEEE Robot. Autom. Lett., vol. 8, no. 3, pp. 1319-1326, 2023.
[7] B. Jiang and S. Shen, "Contour Context: Abstract Structural Distribution for 3D LiDAR Loop Detection and Metric Pose Estimation," in 2023 IEEE Int. Conf. Robot. Autom. (ICRA), 2023, pp. 8386-8392.
[8] C. Shi, X. Chen, J. Xiao, B. Dai, and H. Lu, "Fast and Accurate Deep Loop Closing and Relocalization for Reliable LiDAR SLAM," IEEE Trans. Robot., 2024.
[9] T. Zhang, G. Wang, Y. Chen, H. Zhang, and J. Hu, "Multi-Constellation-Inspired Single-Shot Global LiDAR Localization," in Proc. AAAI Conf. Artif. Intell., vol. 38, no. 9, 2024, pp. 10404-10412.
[10] Q. Zhang, S. Zheng, R. Li, X. Wang, Y. He, and X. Wang, "RLS-LCD: An Efficient Loop Closure Detection for Rotary-LiDAR Scans," IEEE Sensors J., vol. 24, no. 4, pp. 4807-4820, 2024.
[11] Z. Wang, D. Xie, Y. Wu, H. Wu, X. Qi, D. Huang, Y. Fu, and R. Zhong, "Mercator Descriptor: A Novel Global Descriptor for Loop Closure Detection in LiDAR SLAM," IEEE Sensors J., 2024.
[12] N. Wang, X. Chen, C. Shi, Z. Zheng, H. Yu, and H. Lu, "SGLC: Semantic Graph-Guided Coarse-Fine-Refine Full Loop Closing for LiDAR SLAM," IEEE Robot. Autom. Lett., 2024.
[13] S. Lu, X. Xu, D. Zhang, Y. Wu, H. Lu, X. Chen, R. Xiong, and Y. Wang, "RING#: PR-By-PE Global Localization With Roto-Translation Equivariant Gram Learning," IEEE Trans. Robot., 2025.
以下先按年份(从早到晚)对论文进行梳理,并简要说明其在回环检测或全局定位领域的主要贡献及遇到的技术难点。
MinkLoc3D: Point Cloud Based Large-Scale Place Recognition
作者及单位:Jacek Komorowski,华沙理工大学
工作概述:提出了基于稀疏卷积和稀疏体素表示的点云检索网络,能在大规模场景下进行准确的回环检测或位置识别。
难点与问题:解决了 PointNetVLAD 等网络无法有效捕捉点云局部几何结构的挑战,重点提高了在城市环境中鲁棒性与准确率。
1)OverlapNet: a siamese network for computing LiDAR scan similarity with applications to loop closing and localization
作者及单位:Xieyuanli Chen 等,波恩大学
工作概述:提出了基于孪生网络(Siamese Network)的方法,通过对两幅 LiDAR 投影的范围图(Range Image)进行深度特征提取,预测相似度(Overlapping)和相对偏航角,实现回环检测与全局定位。
难点与问题:在不依赖精确姿态初值的情况下,需准确评估任意两帧 LiDAR 扫描的重叠程度,且要兼顾多种传感器环境下的泛化能力。
2)LCDNet: Deep Loop Closure Detection and Point Cloud Registration for LiDAR SLAM
作者及单位:Daniele Cattaneo 等,德国弗赖堡大学
工作概述:融合了回环检测与点云配准的深度学习框架,实现了反向路线(reverse loop)下的可靠检测,并利用相对位姿回归网络(基于不平衡最优传输理论)来解决大角度旋转或初值误差较大的点云配准问题。
难点与问题:检测和注册同时进行时,需要在网络设计中保证准确度和实时性,尤其面对 180° 初始错位的配准。
3)OverlapTransformer: An Efficient and Yaw-Angle-Invariant Transformer Network for LiDAR-Based Place Recognition
作者及单位:Junyi Ma 等,北京理工大学
工作概述:利用 Transformer 结构对 Range Image 特征进行融合,生成对偏航角不敏感(yaw-angle-invariant)的全局描述符,提升在前进/倒车场景中的回环检测精度和效率。
难点与问题:需在保证特征表达能力的同时兼顾运算速度(< 2 ms/帧),并解决 Transformer 在稠密数据上的计算开销及视角不一致带来的匹配难题。
1)CVTNet: A Cross-View Transformer Network for LiDAR-Based Place Recognition in Autonomous Driving Environments
作者及单位:Junyi Ma 等,北京理工大学
工作概述:提出跨视角(RIV + BEV)融合的 Transformer 网络,提取多种视角的特征并生成全局描述符,实现对大视角变化的鲁棒回环检测。
难点与问题:如何有效融合多视角特征(如 Range Image 和 Bird’s Eye View),并在推理阶段仍保持实时性(<50ms)。
2)PADLoC: LiDAR-Based Deep Loop Closure Detection and Registration Using Panoptic Attention
作者及单位:José Arce 等,Freiburg 大学等
工作概述:在 Transformer 编码器中加入 Panoptic 注意力机制,训练时使用全景分割标注,推理时无需分割标签即可提升匹配及姿态估计的准确度。
难点与问题:需在网络中恰当地利用语义和实例信息,同时避免运算量过大;对极端环境、动态场景等仍存在精度和效率平衡问题。
3)Contour Context: Abstract Structural Distribution for 3D LiDAR Loop Detection and Metric Pose Estimation
作者及单位:Binqian Jiang, Shaojie Shen,香港科技大学
工作概述:将激光点云投影到鸟瞰图后,抽象成一系列轮廓(Contour)的分布,并以高斯混合模型进行匹配,从而实现回环检测与 3DoF 位姿估计。
难点与问题:对场景中对象较稀疏或林木较多的环境,信息丢失较大,影响检测和配准精度。
1)RLS-LCD: An Efficient Loop Closure Detection for Rotary-LiDAR Scans
作者及单位:Qiyuan Zhang 等,武汉大学
时间:2024 年 1 月
工作概述:针对旋转式 LiDAR 扫描视角不断变化的问题,采用子地图(Submap)与全局描述子相结合,并设计轻量级描述子以提升实时性。
难点与问题:视角变动导致相同地点的激光数据重叠度低,易出现漏检。
2)Fast and Accurate Deep Loop Closing and Relocalization for Reliable LiDAR SLAM
作者及单位:Chenghao Shi 等,国防科技大学
时间:2024 年 4 月
工作概述:提出 LCR-Net,将回环检测与重定位(Relocalization)放在同一深度框架中,同时满足轻量化全局描述与高精度点云对齐需求。
难点与问题:在仅依赖 LiDAR 的条件下,既要维持全局检索的效率又要保证局部对齐精度,并消除对 ICP 或 RANSAC 等鲁棒估计器的过分依赖。
3)Mercator Descriptor: A Novel Global Descriptor for Loop Closure Detection in LiDAR SLAM
作者及单位:Zhibo Wang 等,首都师范大学
时间:2024 年 9 月
工作概述:基于类似墨卡托投影的方法来构建旋转不变的深度描述子,配合余弦相似度衡量与 kd-tree,加速回环匹配检索。
难点与问题:如何在保持旋转不变性的同时,尽量保留狭窄场景中的有用特征信息;此外高视角变化或稀疏点云仍需更优解决方案。
4)SGLC: Semantic Graph-Guided Coarse-Fine-Refine Full Loop Closing for LiDAR SLAM
作者及单位:Neng Wang 等,国防科技大学
时间:2024 年 11 月
工作概述:以语义实例为节点构建图结构,结合前景的语义图和背景平面几何进行多阶段配准(粗-精-再精),在回环检测和 6DoF 位姿求解上取得高精度与实时性。
难点与问题:语义分割精度不足时,背景相似度计算会受影响;多层级粗精配准要平衡计算量与精度。
5)Multi-Constellation-Inspired Single-Shot Global LiDAR Localization
作者及单位:Tongzhou Zhang 等,吉林大学
时间:2024 年(未注明具体月份)
工作概述:将全局定位看作多球约束问题,通过单次扫描与数据库关键帧距离的迭代优化来解算位置坐标(含 z 轴),并集成轻量级里程计用于检测与估计之间的距离。
难点与问题:面向大平移、稀疏地图以及多场景通用性时,可能在 z 轴精度和收敛速度上有所限制。
RING#: PR-By-PE Global Localization With Roto-Translation Equivariant Gram Learning
作者及单位:Sha Lu 等,浙江大学
工作概述:将全局定位过程改写为“PR-by-PE”的新范式,利用旋转平移等变表征直接推导出回环检测(PR)结果,从而减少对独立 PR 模块的依赖,并显著提升大视角变化下的定位成功率。
难点与问题:尚需在相似度度量、环境多样化扩展等方面进一步提升鲁棒性。
数据结构层面:
利用Range Image(OverlapNet、OverlapTransformer、CVTNet)和Bird’s Eye View(Contour Context、CVTNet)来压缩三维点云;
采用稀疏体素(MinkLoc3D)或Submap(RLS-LCD)等结构,减少冗余数据;
使用语义图(SGLC)或多球约束(Multi-Constellation)等更高层级的表示,提升检索与配准精度。
算法层面:
Transformer 系列(CVTNet、OverlapTransformer、PADLoC 部分)利用注意力机制融合多视角信息;
CNN + NetVLAD(LCDNet、MinkLoc3D 等)做全局描述子;
Panoptic Attention(PADLoC)以及语义图 + 粗精配准(SGLC)进一步增强回环或位姿估计;
PR-by-PE(RING#)在估计姿态的过程中顺带获得回环检测结果,减少模块级错误累积。
硬件架构/电路层面:大多数方法暂未给出专门的硬件加速或电路优化;有的工作仅说明在 GPU(NVIDIA RTX 3090/T4)或 CPU(Intel i7/AMD 系列)上实现,且能满足实时或近实时需求。
关键问题与里程碑:
提升回环检测的鲁棒性和速度;
实现大角度旋转、稀疏点云或高外观变化场景下的准确检测;
部分工作(如 LCR-Net、SGLC)已在多数据集测试中接近或超越传统 ICP + 先验特征结合的方法。
尚存局限:
对极端动态场景、环境纹理极其稀少或激光回波不稳定等情况,仍需继续优化;
对语义分割质量或网络结构复杂度的依赖较高,需进一步在硬件资源受限的移动端进行适配。
当前国内外学术界和工业界在自动驾驶回环检测领域已形成以下趋势:
多传感器融合:虽然文献多以纯 LiDAR 为核心,但也有学者不断探索 LiDAR + Camera、GNSS 或 Radar 等融合,以提升对外界变化的鲁棒性;
深度学习与几何方法结合:深度特征替代或增强传统手工特征(如 ICP、NDT、RANSAC 等),并通过等变特征或Transformer提高大视角变化下的匹配成功率;
轻量化与端侧部署:在保证准确度的同时,追求实时甚至超实时(<10ms/帧),以满足自动驾驶感知定位系统的嵌入式需求;
数据结构-算法-架构“三位一体”的优化:逐步从算法层面延伸到硬件加速或 FPGA/ASIC 设计,以减少能耗、提升吞吐。
科学意义与实用价值上,回环检测是自动驾驶中必不可少的一环,可大幅降低累积误差并增强全局一致性。其深度耦合优化对突破实时性能瓶颈、实现全天候高鲁棒性具有重大作用。
下表列出了各研究的主要任务、核心算法、优化策略及实验平台,帮助快速对比不同方案:
| 参考文献 | 主要任务 | 核心算法 | 优化策略 | 实验平台与实现方式 |
|---|---|---|---|---|
| [1] MinkLoc3D (2021) | 大规模场景回环检测 / 位置识别 | 稀疏卷积 + FPN + GeM pooling | 稀疏体素表示,三维稀疏卷积 | GPU (RTX 2080Ti) + Python (MinkowskiEngine) |
| [2] OverlapNet (2022) | 回环检测 + 全局定位 | 孪生网络 (Siamese) + Range Image | 多通道输入(深度/法线/语义),预测 Overlap & Yaw | GPU + 自定义 C++/Python 实现(适配不同 LiDAR 传感器) |
| [3] LCDNet (2022) | 回环检测 + 点云注册 | NetVLAD + 相对位姿回归 (基于不平衡最优传输) | 融合回环检测与配准模块,能处理大角度错位 | 多数据集(KITTI、Freiburg) + PyTorch |
| [4] OverlapTransformer (2022) | 回环检测 + Yaw 不变描述 | Transformer + Range Image → 全局描述 | 通过自注意力机制融合视角特征,<2ms/帧 | GPU (RTX 3090) + Python/TensorFlow/PyTorch |
| [5] CVTNet (2023) | 多视角融合下的回环检测 | Cross-View Transformer (RIV + BEV) | Intra/Inter-Transformer,NetVLAD 生成全局描述 | GPU + C++/Python |
| [6] PADLoC (2023) | 回环检测 + 点云注册 | Transformer 编码器 + Panoptic Attention | 训练期用语义全景分割增强对齐,推理时不依赖语义标签 | GPU (KITTI/Ford/Freiburg 数据) + Python |
| [7] Contour Context (2023) | 回环检测 + 3DoF 位姿估计 | BEV 轮廓分层分布 + 高斯混合模型匹配 | 两阶段相似性校验 (离散 + 连续),KD-tree 加速 | CPU (Intel i7) + C++ (单线程) |
| [8] RLS-LCD (2024) | 旋转 LiDAR 回环检测 | 全局描述子 + C2F 策略 (子地图) | 轻量化描述子 + 多层候选检索 | CPU (i7-1165G7) + Ubuntu 20.04 |
| [9] Fast & Accurate... (2024) | 回环检测 + 重定位 | LCR-Net (多头网络), Sparse-to-Dense Matching | 全局描述 + 局部特征对齐, 无需 RANSAC/ICP | 多数据集 + GPU (加速批量卷积) |
| [10] Mercator Descriptor (2024) | 回环检测 | Mercator 投影 + 旋转不变深度描述子 | kd-tree + 余弦相似度,两步候选搜索 | GPU/CPU 混合部署 |
| [11] SGLC (2024) | 回环检测 + 6DoF 位姿求解 | 语义图 + 粗精两阶段 (Coarse-Fine-Refine) | 前景实例 + 背景平面几何相结合,语义图辅助检索 | GPU (RTX 3090) + Python + 语义分割网络 |
| [12] Multi-Constellation (2024) | 全局单次定位 | 里程计 + 多球方程迭代求解 | 在数据库关键帧间选观测点,轻量化里程计估计距离 | CPU (Intel i7) + C++ |
| [13] RING# (2025) | 全局定位 (PR-by-PE范式) | 旋转平移等变表征 + Gram Learning (Radon/Fourier) | 将回环检测融入姿态估计,无需单独 PR 模块 | GPU (FFT 快速卷积) + Python/TensorFlow/PyTorch |
结合上表与前文总结,可归纳未来自动驾驶回环检测与全局定位的可能演进路线:
数据结构优化
从点云稀疏体素 / Range Image 表征 (\rightarrow) 多分辨率融合(结合可见光、红外等)
语义、实例级信息嵌入 (\rightarrow) 改进检测准确度与对动态物体的鲁棒性
算法升级
传统 CNN/NetVLAD (\rightarrow) 多模态 Transformer、Panoptic Transformer
“PR-by-PE”范式 (\rightarrow) 在姿态估计过程中自带回环检测,减少模块链式误差
硬件协同加速
GPU/CPU 并行优化 (\rightarrow) 边缘侧计算(FPGA/ASIC)
专用加速器(稀疏卷积 / Attention 加速)(\rightarrow) 实时、高能效部署
系统集成
整合多源传感器(LiDAR + Camera + IMU/GNSS/Radar)(\rightarrow) 软硬件一体化 SLAM/定位
大规模云端图资与车载在线匹配结合 (\rightarrow) 车路协同(V2X)高精度定位
随着以上路线的发展,未来自动驾驶在感知与定位层面将可同时保证高精度、高鲁棒性与低功耗,为无人驾驶规模化落地奠定基础。
综上所述,近年来自动驾驶回环检测与全局定位研究在轻量化描述子、深度学习 + 几何融合以及多视角等变表征等方面取得了显著突破。关键里程碑包括:
稀疏卷积(MinkLoc3D)带来的高效点云描述;
孪生网络 / Transformer(OverlapNet / OverlapTransformer / CVTNet 等)多视角融合与偏航不变特征;
语义与实例图(PADLoC / SGLC)结合粗精多级配准,解决 6DoF 姿态精确估计;
PR-by-PE(RING#)统一了回环检测与姿态估计,减少模块间级联误差。
然而,深度耦合优化尚面临对计算资源、极端场景泛化能力和多传感器时空同步等难题。针对能效提升、硬件加速、以及更复杂城市环境的语义动态检测,将是今后重要的研究方向。
[1] J. Komorowski, “MinkLoc3D: Point cloud based large-scale place recognition,” in Proceedings of the IEEE/CVF winter conference on applications of computer vision, 2021, pp. 1790–1799.
[2] X. Chen, T. Läbe, A. Milioto, T. Röhling, J. Behley, and C. Stachniss, “OverlapNet: A siamese network for computing LiDAR scan similarity with applications to loop closing and localization,” Autonomous Robots, pp. 1–21, 2022.
[3] D. Cattaneo, M. Vaghi, and A. Valada, “LCDNet: Deep loop closure detection and point cloud registration for LiDAR SLAM,” IEEE Transactions on Robotics, vol. 38, no. 4, pp. 2074–2093, 2022.
[4] J. Ma, J. Zhang, J. Xu, R. Ai, W. Gu, and X. Chen, “OverlapTransformer: An efficient and yaw-angle-invariant transformer network for LiDAR-based place recognition,” IEEE Robotics and Automation Letters, vol. 7, no. 3, pp. 6958–6965, 2022.
[5] J. Ma, G. Xiong, J. Xu, and X. Chen, “CVTNet: A cross-view transformer network for LiDAR-based place recognition in autonomous driving environments,” IEEE Transactions on Industrial Informatics, vol. 20, no. 3, pp. 4039–4048, 2023.
[6] J. Arce, N. Vödisch, D. Cattaneo, W. Burgard, and A. Valada, “Padloc: Lidar-based deep loop closure detection and registration using panoptic attention,” IEEE Robotics and Automation Letters, vol. 8, no. 3, pp. 1319–1326, 2023.
[7] B. Jiang and S. Shen, “Contour Context: Abstract structural distribution for 3D LiDAR loop detection and metric pose estimation,” in 2023 IEEE International Conference on Robotics and Automation (ICRA), IEEE, 2023, pp. 8386–8392.
[8] Q. Zhang, S. Zheng, R. Li, X. Wang, Y. He, and X. Wang, “RLS-LCD: An efficient loop closure detection for rotary-LiDAR scans,” IEEE Sensors Journal, vol. 24, no. 4, pp. 4807–4820, 2024.
[9] C. Shi, X. Chen, J. Xiao, B. Dai, and H. Lu, “Fast and accurate deep loop closing and relocalization for reliable lidar slam,” IEEE Transactions on Robotics, 2024.
[10] Z. Wang, D. Xie, Y. Wu, H. Wu, X. Qi, D. Huang, Y. Fu, and R. Zhong, “Mercator Descriptor: A novel global descriptor for loop closure detection in LiDAR SLAM,” IEEE Sensors Journal, 2024.
[11] N. Wang, X. Chen, C. Shi, Z. Zheng, H. Yu, and H. Lu, “SGLC: Semantic Graph-Guided Coarse-Fine-Refine Full Loop Closing for LiDAR SLAM,” IEEE Robotics and Automation Letters, 2024.
[12] T. Zhang, G. Wang, Y. Chen, H. Zhang, and J. Hu, “Multi-Constellation-Inspired Single-Shot Global LiDAR Localization,” in Proceedings of the AAAI conference on artificial intelligence, vol. 38, no. 9, pp. 10404–10412, 2024.
[13] S. Lu, X. Xu, D. Zhang, Y. Wu, H. Lu, X. Chen, R. Xiong, and Y. Wang, “Ring#: Pr-by-pe global localization with roto-translation equivariant gram learning,” IEEE Transactions on Robotics, 2025.