TinyFusionDet: 硬件高效的 LiDAR-相机融合框架用于边缘端的3D物体检测

摘要

当前的 LiDAR-相机融合方法在三维物体检测中能够实现相当的准确率，但其计算和存储成本极高，给边缘部署带来了挑战。为解决此问题，我们提出了一种轻量级三维物体检测框架，即 TinyFusionDet。特别地，我们在 LiDAR 点云特征提取中提出了巧妙的混合尺度柱状策略，以高效提升小目标的检测精度。同时，提出了一种低成本的跨模态热图注意力模块，以抑制图像特征中的背景干扰，降低误报率。此外，还设计了跨模态特征交互模块，以增强通道间的跨模态信息融合，进一步提升检测精度。大量实验表明，TinyFusionDet 在保持最低内存消耗和推理延迟的前提下，达到了具有竞争力的准确率，适用于硬件受限的边缘设备。更进一步，TinyFusionDet 在定制的 FPGA 原型系统上实现，能源效率高达 114.97 GOPS/W，创下纪录。据我们所知，这标志着首个面向边缘应用的实时 LiDAR-相机融合检测框架。

作者

Yishi Li 电子模拟集成电路与系统重点实验室（教育部），西安电子科技大学微电子学院，西安，中国；重庆创新集成电路研究院，西安电子科技大学，重庆，中国 ORCID: 0000-0002-6600-355X

Fanhong Zeng 电子模拟集成电路与系统重点实验室（教育部），西安电子科技大学微电子学院，西安，中国；重庆创新集成电路研究院，西安电子科技大学，重庆，中国 ORCID: 0009-0009-2433-2679

Rui Lai 电子模拟集成电路与系统重点实验室（教育部），西安电子科技大学微电子学院，西安，中国；重庆创新集成电路研究院，西安电子科技大学，重庆，中国 ORCID: 0000-0002-8458-6429

Tong Wu 中国教育部模拟集成电路与系统关键实验室，西安电子科技大学微电子学院；重庆集成电路创新研究院，西安电子科技大学，重庆，中国 ORCID: 0009-0000-2766-1966

Juntao Guan 中国教育部模拟集成电路与系统关键实验室，杭州西安电子科技大学，中国 ORCID: 0000-0002-1640-6799

Anfu Zhu 北方水利电力大学电子工程学院，郑州，中国

Zhangming Zhu 中国教育部模拟集成电路与系统关键实验室，杭州西安电子科技大学，中国 ORCID: 0000-0002-7764-1928

出版信息

期刊: IEEE Transactions on Circuits and Systems for Video Technology 年份: 2025 卷号: 35 期号: 9 页码: 8819-8834 DOI: 10.1109/TCSVT.2025.3556711 文章编号: 10947105 ISSN: 打印 ISSN: 1051-8215, 电子 ISSN: 1558-2205

指标

总下载量: 186

资助

国家科学技术创新2030重大项目 (Grant: 2021ZD0114400)
山西省青年科学家自然科学基金 (Grant: 62304162)
中国博士后科学基金 (Grant: 2024M762532)
CPSF博士后奖学金项目 (Grant: GZC20241313)
陕西省自然科学基础研究基金项目 (Grant: 2024JC-YBMS-794)
中央高校基础研究费 (Grant: XJSJ24090)

关键词

IEEE 关键词: 三维显示, 特征提取, 精度, 点云压缩, 目标检测, 图像边缘检测, 激光雷达, 语义, 提案, 硬件

关键词: 物体检测, 检测框架, 3D物体检测, 3D物体检测框架, 计算成本, 图像特征, 检测精度, 大量实验, 点云, 注意力模块, 小目标, 融合方法, 内存消耗, 原型系统, 边缘设备, 相当准确性, LiDAR点云, 竞争性准确性, 点云特征, 目标准确性, 3D检测, 特征融合, 基于体素的方法, 特征图大小, 特征图, 图像特征提取, 大型物体, 尺寸权重, 3D边界框

作者关键词: 3D物体检测, LiDAR-摄像头融合, 小型机器学习, FPGA

未定义

章节 I. 引言

在三维世界中，目标检测是计算机视觉中的一项基础任务，在各种现实世界应用中起着至关重要的作用，包括自动驾驶、机器人和增强现实 ¹, ²。其目的是标注三维坐标、尺寸（长度、宽度、高度），并为感兴趣的目标提供三维边界框。随着 LiDAR 与摄像机技术的发展，它们的感知能力和可靠性已显著提升。因此，许多基于二维图像 ³, ⁴, ⁵, ⁶, ⁷, ⁸ 和三维点云 ⁹, ¹⁰, ¹¹, ¹², ¹³ 的经典检测方法已被提出。

近年来，无人平台经历了快速发展，并广泛应用于测绘、军事应用和消费电子等各个领域。同时，由于激光雷达（LiDAR）的微型化和技术成熟，无人平台上激光雷达与摄像头的集成被越来越多地采用。许多基于点云和基于融合的三维目标检测方法 ¹⁴, ¹⁵, ¹⁶, ¹⁷, ¹⁸ 已在无人机（UAV）上提出。由于无人机的功率和尺寸受限，通常采用计算能力和存储容量严格受限的边缘计算节点。特别需要在仅有数百毫瓦功耗和数兆字节内存的传感器附近处理数据。为了在边缘受限条件下提升性能，已提出一系列关于微型机器学习的工作 ¹⁹, ²⁰, ²¹, ²², ²³, ²⁴, ²⁵。

LiDAR 点云由带有坐标和反射率数据的点组成，提供了丰富的 3D 形状和空间信息。然而，与相机捕获的二维图像相比，三维点云稀疏且缺乏足够的语义和纹理信息，导致中远距离目标的检测精度不足。针对这一点，已经陆续提出了大量工作 ²⁶，²⁷，²⁸，²⁹，³⁰，[^31]，[^32]，[^33]，[^34]，[^35]，[^36]，[^37]，[^38]，[^39]，[^40]，[^41]，[^42]，[^43]，[^44]，[^45]，[^46]，以将二维图像中的目标信息与点云特征融合，从而进一步提升三维目标检测的精度。

现有的 LiDAR-Camera 融合检测方法可大致分为三类 [^47]，[^48]：提议级融合、点级融合和特征级融合。提议级融合方法 ³¹，³²，³³，³⁴，[^36] 分别从图像和点云中提取特征，为每种模态生成提议 ³⁵，³⁶ 或边界框结果 ³⁷，³⁸，[^36]。随后，安排跨尺度融合以生成最终的 3D 边界框。鉴于提议级融合过度依赖前一阶段的检测结果并忽视跨模态关系，导致精度受限。为解决此限制，点级融合方法 [^31]，[^32]，[^33]，[^34] 将图像的语义特征绘制到 LiDAR 前景点上，显著提升检测精度。然而，点级融合的效果受到校准矩阵建立的点与像素之间严格关联的限制。相比之下，特征级融合方法 [^35]，[^36]，[^37]，[^38]，[^39]，[^40]，[^41]，[^42]，[^43]，[^44] 特别引入一个特征融合流程跟随特征提取骨干网络，利用检测中的跨模态语义特征，提升鲁棒性和准确度。

然而，当前的方法尚未充分考虑硬件实现效率。这带来了三个主要挑战: (1) 边缘设备的存储空间有限，限制了权重和特征图的大小； (2) 计算资源有限，限制了算法复杂度； (3) 在检测性能与硬件消耗之间取得最佳平衡，实际上是一项难以实现的目标。

为应对这些挑战，本文提出了一种硬件友好型轻量框架 TinyFusionDet，用于边缘设备的 LiDAR-摄像头融合三维目标检测。特别地，我们提出了 Dense Symmetric Linear Residual Block (DSLRB)，在图像和 LiDAR 特征提取器的深层中扩大感受野，有助于提升对大目标的检测精度。进一步地，提出了 Hybrid Scale Pillar Strategy (HSPS)，并在 LiDAR 特征提取器中加以利用，以增强小目标检测。随后，我们在无矩阵乘法的方式下改进了跨模态特征增强与融合过程。特别地，我们提出了创新性的 Cross-Modal Heatmap Attention 模块 (CMHA)，该模块预测可学习的热图，以低计算量和低内存成本强化图像特征的跨模态表征。在此基础上，我们提出了 Cross-Modal Feature Interaction 模块 (CMFI)，进一步聚合并提升通道间的跨模态特征，利用强大的信息融合结构 Metaformer [^49]，显著提升检测精度。

在 KITTI [^50] 与 nuScenes [^51] 上进行的大量实验表明，我们提出的 TinyFusionDet 在推理速度、硬件占用方面优于竞争方法，同时保持了可观的检测精度。此外，我们基于 FPGA 设计了一套定制的硬件加速原型系统，能够实时实现 TinyFusionDet，并将整体内存消耗控制在 3MB 以下。据我们所知，这是首个在边缘实现基于 LiDAR-摄像头融合的 3D 目标检测工作。

总之，本文的贡献如下：

我们提出了轻量级的 3D 融合检测框架 TinyFusionDet，能够在实现最低内存占用和推理延迟的同时保持竞争性精度。
我们提出了巧妙的 Hybrid Scale Pillar Strategy (HSPS)，该策略编码多尺度柱状体，以在不增加特征内存成本的前提下，特别提升小目标检测精度。
我们提出了一个跨模态热图注意力模块 (CMHA)，它预测一个可学习的注意力图，以在更低的计算和内存成本下增强图像特征表示。
我们设计了一个跨模态特征交互模块 (CMFI)，它使用 Meta 框架融合跨模态特征，以实现更精确的检测。
据我们所知，我们是首批在 FPGA 上部署 LiDAR-摄像头融合检测框架的研究者，获得了高达 114.97GOPS/W 的创纪录能效。

第二节：相关工作

A. 基于 LiDAR 的 3D 检测

通常，基于 LiDAR 的 3D 目标检测方法可分为三类：基于点的、基于鸟瞰图（BEV）的以及基于体素的方法。

基于点的方法 ³⁹、⁴⁰、⁴¹、[^36]、[^52]、[^53] 以原始点作为输入。F-PointNet ⁴² 和 PointFusion [^36] 通过 2D 检测结果预测 3D 边界框，这导致准确性不稳定。鉴于此，PointRCNN ⁴³ 和 STD ⁴⁴ 采用 PointNet++ [^54] 作为骨干网络，并通过点级特征预测 3D 边界框。在高检测精度的前提下，最先进的 3DSSD [^53] 提出基于特征距离的采样策略，以提升推理速度至 38 毫秒（使用高性能 GPU）。即便如此，众多实验表明基于点的方法仍然计算量大，这阻碍了它们在边缘设备上的应用。基于鸟瞰图（BEV）的方法 ⁴⁵、[^55]、[^56]、[^57] 将点云投影到二维空间，从而显著简化计算。BirdNet [^55] 和 PIXOR ⁴⁶ 利用基于 BEV 地图的高效数据表示以及特定编码方法。HDNET [^57] 提议将来自独立高分辨率 LiDAR 地图预测器的 BEV 表示进行融合。然而，由于忽略了沿 Z 轴的高度信息，导致大量 3D 特征丢失，显著降低了检测精度。基于体素的方法 ⁴⁷、⁴⁸、[^58]、[^59]、[^60]、[^61]、[^62]、[^63]、[^64] 将 3D 空间划分为规则体素作为输入。VoxelNet [^59] 首先提出体素特征编码（VFE）以提取点级特征，然后通过后续 3D 卷积对其进行聚合。为实现更高精度，Part-A2 [^62] 引入了 RoI 感知池化操作，以保留提议框内所有点的信息，从而消除歧义。H^{2}3D-RCNN [^63] 从视角视图和鸟瞰视图提取 3D 体素特征。PDV [^64] 解决了非均匀点云采样带来的挑战，并利用点密度-距离关系来提升准确性。

然而，3D卷积的计算成本或复杂结构阻碍了它们在实时应用中的扩展。鉴于此，SECOND ⁴⁹ 提出了稀疏卷积，避免了空旷空间中的不必要计算，并将推理延迟降低到 50ms。基于 SECOND，PointPillars ⁵⁰ 进一步压缩了体素的内存消耗，实现了 23ms 的推理时间。此外，另一种上述方法的混合版本 [^65] 也可用。

B. LiDAR-相机融合3D检测

LiDAR-相机融合检测方法利用点云的深度信息和图像的纹理细节，提供对环境的全面理解，并通过复杂的融合过程实现。现有方法可分为三大类：提议级、点级和特征级融合。

在细节层面，proposal-level fusion 方法 ⁵¹, ⁵², ⁵³, ⁵⁴, ⁵⁵ 分别从两种模态中提取最终信息，并在提议阶段或结果阶段进行融合。MV3D ⁵⁶ 和 AVOD ⁵⁷ 从特征图和 RoI 池化生成一组提议，用于将不同尺寸的特征块转换为统一尺寸。然而，ROI 特征融合仅发生在高层特征图上，并仅在特征图上对特定目标区域进行选择性融合，导致部分细节信息丢失。与此同时，F-PointNet ⁵⁸、RoarNet ⁵⁹、CLOCs ⁶⁰ 在结果阶段融合每个传感器的预测边界框。F-PointNet ⁶¹ 通过 2D 和 3D 检测器的级联融合结合两个预测结果。然而，准确度受限于 2D 检测。CLOCs ⁶² 提出一个子网络，从 3D 和 2D 候选中学习，然后预测 3D 边界框，有效提升检测精度。

点级融合方法 [^31], [^32], [^33], [^34] 将图像的语义信息分配给前景原始点，然后在点级实现细粒度融合。 PI-RCNN [^31] 提出了基于点的连续注意力卷积融合，直接在三维点上融合多传感器特征。然而，点云的稀疏性导致负面影响。 PointAugmenting [^32] 和 PointPainting [^33] 通过三维目标检测框架处理对齐的点和图像语义。然而，利用图像特征来增强三维点可能引入二维语义约束。相反，将点云投射到图像上可能导致严重的性能下降，因为多模态表示中的一致性被破坏。鉴于此，VFF [^34] 提出了创新的点到射线投射方法。总体而言，点级融合方法具有高精度，但易受到多传感器失配的影响。

特征层融合方法在候选预测之前融合不同传感器的特征，通常分为硬关联和软关联两种方法。硬关联融合 [^35]、[^36]、[^37]、[^38]、[^39]、[^40] 直接在元素级别将点云与图像结合。ContFuse [^35] 提出了一个融合层，用于整合 BEV 与图像特征图。类似地，PointFusion [^36] 提出了点云与图像的稠密特征融合。随后，DeepFusion [^37] 发现数据增强可能影响特征间的相关性，并相应提出了 InverseAug 这一鲁棒数据增强技术。虽然上述方法简单高效，但仍无法充分利用不同模态之间的互补性。为缓解硬融合的灵活性问题，EPNet [^39] 引入了 LI-Fusion 模块，动态评估图像中语义特征的相关性。至于软关联融合方法 [^41]、[^42]、[^43]、[^44]、[^66]、[^67]，它们有效地融合了特征之间的上下文关系。由于变压器在全局搜索中的卓越表现，许多方法将变压器作为融合组件。例如，TransFuser [^41] 直接使用变压器中的交叉注意力模块在多尺度上融合特征，这是针对图像质量较差情况的鲁棒方案。CAT-Det [^43] 利用 Pointformer 分支和 Imageformer 分支，分别获得广阔的感受野并捕获点云与图像的全局信息。类似地，LoGoNet [^44] 引入基于变压器的全局与局部融合，并利用自注意力模块实现这些全局与局部融合特征之间的信息交互。GraphAlign++ [^66] 提出了一种基于图匹配的新框架，用于构建点云特征图并匹配跨模态的邻近融合特征，以寻找比单点像素匹配更合适的对齐关系。

由于BEV空间提供了统一坐标系并可使用高效的二维卷积，RobBEV [^67] 在BEV空间中实现了LiDAR与相机特征的独立提取，并设计了互相变形注意模块和时间聚合模块，分别用于自适应跨模态特征选择和连续图像融合。

综上所述，软关联融合机制利用跨注意机制在点云与图像之间建立灵活关联，极大提升检测精度。然而，该方法主要依赖于计算量大、内存消耗高的Transformer模块，难以部署在边缘硬件上。

C. 在边缘进行LiDAR处理

近年来，为加速边缘设备上的LiDAR处理，众多研究提出了基于点云的网络解决方案。张某开发了用于LiDAR点云通道聚类的加速器，相比CPU执行实现了超过471.5倍的加速 [^68]。Feng 引入了基于ASIC的加速器 Mesorasi，用于 PointNet++，并为邻域点搜索提供了优化策略 [^69]。Zheng 创建了低功耗的 FPGA 加速器，提升了 PointNet 的非线性运算 [^70]。PointAcc 提出了一种基于 ASIC 的加速器，通过坐标变换将多种映射操作合并为乘加操作，使其兼容不同的点云网络 [^71]。相比之下，基于 FPGA 的CNN加速器比GPU更节能，可进行更大规模的并行处理，超过CPU [^72]。因此，迫切需要专门的基于 FPGA 的加速器来支持柱状方法，以便实现其部署。

第III节方法

A. 概述

为了使边缘设备能够实时运行3D目标检测，我们特别提出了一个紧凑的 LiDAR-Camera 融合框架，具有最小的内存成本和计算负载。如图1所示，该框架的工作流程可概括为： (1) 采用轻量级 Image Feature Extractor 从 2D 图像中提取纹理特征； (2) 对于 LiDAR Feature Extractor，提出 Hybrid Scale Pillar Strategy，以增强我们之前 TinyPillarNet [^73] 中小型骨干网络的本征特征表示； (3) Cross-Modal Heatmap Attention module 利用提取的 Image 和 LiDAR 特征共同预测注意力图，以提升图像特征； (4) 采用更小且更强大的 Metaformer 架构的 Cross-Modal Feature Interaction module 用于融合 Image 与 LiDAR 特征； (5) 融合后的特征最终被送入检测头，以预测类别和边界框。

Fig. 1. 我们提出的 TinyFusionDet 框架结构。LiDAR 和 Image Feature Extractors 分别从点云和 2D 图像中获取特征。Hybrid Scale Pillar Strategy 旨在增强小目标的 LiDAR 特征。按照 [73] 的方法，PPME 将 3D 点编码为 2D 本征和分布式伪图，然后由 Tiny Backbone Network 和 Saliency Enhancement Network 处理。随后，LiDAR 和图像在 2D 空间中的特征被送入 Cross-Modal Heatmap Attention module，该模块通过跨模态热力图增强图像特征。此外，Cross-Modal Feature Interaction module 进一步融合 2D 图像和 LiDAR 特征，以有效提升检测精度。

为了展示一个适用于边缘设备的 LiDAR-Camera 3D 检测器，本文的关键设计考虑如下： (1) 缩小特征图和权重的尺寸以节省存储空间； (2) 简化检测器的操作和结构以便于部署。

B. LiDAR 与图像特征提取器

1) 栏杆编码器:

点云中的点表示为 p_{n}(x_{n},y_{n}, z_{n},r_{n})，其中 x_{n},y_{n}, z_{n} 是三维坐标，r_{n} 是反射率。范围为 [x_{min}, y_{min}, z_{min}, x_{max}, y_{max}, z_{max}] 的三维空间沿 X 和 Y 轴均匀划分为大小为 (g_{x}, g_{y}) 的网格单元。随后，点被划分为称为柱子的子空间，可以定义为

\begin{align*} P_{i, j} & = \{ p_{n}~|~\lfloor x_{n}/g_{x} \rfloor = i, \\ ~\lfloor y_{n}/g_{y} \rfloor & = j, \\ ~x_{min} & \le x_{n} \le x_{max}, \\ ~y_{min} & \le y_{n} \le y_{max} \} \tag {1}\end{align*}

其中 \lfloor \cdot \rfloor 是向下取整函数。(i, j) 表示某个柱的坐标。

为显著降低柱的内存占用，我们在先前工作 [^73] 中使用了 PPME，将柱预编码为二维空间中两种极其紧凑的伪映射，可以定义为

\begin{align*} I, D & = PPME(P) \\ I & = \{I_{zmin}, I_{zmax}, I_{r}\} \\ D & = \{D_{n}, D_{dd}\} \tag {2}\end{align*}

其中 P 表示柱集，I 与 D 分别代表内在伪图和分布式伪图。I 由描述符 I_{zmin}、I_{zmax} 和 I_{r} 组成，分别表示柱的最小高度、最大高度和平均反射率。D 由描述符 D_{n} 与 D_{dd} 组成，分别表示点数和定制失序度。

2) 混合尺度柱策略:

在基于体素的方法中，网格尺寸直接影响 3D 对象形状的表示精度。较大的网格尺寸适用于表示汽车、卡车、火车等大型物体，而较小的网格尺寸能够保留更详细的 3D 信息，并且更有利于表征如人物、自行车等小型物体。

先前的工作 [^60], [^74] 指出，使用多尺度体素混合可以显著提升检测精度。然而，较小的网格尺寸会产生更高分辨率的伪地图，并导致显著的内存爆炸。

为了平衡伪图像分辨率和内存消耗，提出并应用了一种新颖的混合尺度柱状策略（HSPS）于 Tiny Backbone Network。如图 2 所示，我们采用多种网格尺寸将点编码为多分辨率内在伪图像，以适应不同目标尺寸。实际上，我们将网格尺寸设置为两个集合，分别为 (g_{xs},g_{ys}) 和 (g_{xl}, g_{yl})。相应的检测范围为 [x_{mins}, y_{mins}, x_{maxs}, y_{maxs}] 和 [x_{minl}, y_{minl}, x_{maxl}, y_{maxl}]，可表示为

\begin{equation*} \frac {g_{xs}}{g_{xl}} = \frac {g_{ys}}{g_{yl}} = \frac {x_{maxs} - x_{mins}}{x_{maxl} - x_{minl}} = \frac {y_{maxs} - y_{mins}}{y_{maxl} - y_{minl}} \tag {3}\end{equation*}

图 2。 Tiny Backbone Network 中提出的混合尺度柱状策略（HSPS）的结构，生成多尺度内在伪图像的混合特征。

随后，来自双分支编码过程的内在特征通过嵌入操作进一步融合，以生成混合特征，该特征仅用高分辨率 BEV 图像替换低分辨率特征图中的相应区域。至于嵌入操作，它仅增强中央区域的特征，并与完整的大网格特征相比，在保持最小计算成本的同时显著提升性能。

3) LiDAR 特征提取器：

LiDAR 特征提取器结合 HSPS 的架构如图 3 所示，主要由 Tiny Backbone Network (TBN) 和 Saliency Enhancement Network (SEN) 组成。至于 TBN，二维内在伪图像首先由 HSPS 提取。随后，一个自下而上的子网络由 LRB 和 DSLRB 组成，提取多尺度二维特征，并通过上采样对齐后相加。在 SEN 中，使用全尺寸二维分布伪图像自适应生成显著性图，突出目标位置。最后，将相加的特征与显著性图相乘，生成二维 LiDAR 特征。

图 3。图像和 LiDAR 特征提取器的结构，以及它们的基本模块，包括先前提出的 Linear Residual Block (LRB) [73] 和新提出的 Dense Symmetric Linear Residual Block (DSLRB)。

在所提出的框架中，我们利用了之前工作中提出的轻量级构建块线性残差块（Linear Residual Block，LRB）[^73]。如图3所示，LRB由DWConv和两个PWConv组成。具有更多通道的特征的快捷连接保留了来自底层的更多信息，并在训练过程中导致更多梯度在多层之间传播⁶³。考虑到堆叠3 \times 3个DWConv会导致特征稀疏性迅速消失，并进一步使小物体的形状模糊[^75]，因此LRB仅涉及一个DWConv。

特别地，我们提出了密集对称线性残差块（Dense Symmetric Linear Residual Block，DSLRB），它在LRB的基础上加入了额外的3\times 3个DWConv，以增强感受野并提高大目标的检测精度。除此之外，还采用了密集连接来传播梯度并稳定训练。值得注意的是，DSLRB仅用于深层。原因是，在浅层部署DSLRB可能会模糊小物体的特征并降低检测精度。简而言之，3D特征提取器的骨干网络主要由5组组成，如图3所示。我们将G1称为浅层，G2和G3称为深层。

4) 图像特征提取器:

如图3所示，图像特征提取器提取相机捕获图像的语义特征。其架构采用DSLRB作为构建块来构建骨干网络。与LiDAR特征提取器不同，浅层仍然采用DSLRB而非LRB，原因在于二维场景中小物体的尺度比例远大于三维场景。沿用现有方法[^37]、[^44]，网络包含3个步长为2的池化操作和一个2\times上采样操作，导致生成的二维特征的空间尺寸为图像的四分之一。这保证了二维特征具有丰富的语义，同时保持计算复杂度相对较低。

C. 跨模态热图注意力模块

以前的特征级融合方法，尤其是基于 Transformer 的工作 [^41], [^42], [^43], [^44]，如图 4(a) 所示，通常通过计算 LiDAR 与图像特征之间的相关性来预测交叉注意力信息。随后，图像特征通过交叉注意力分数增强，以去除与 3D 信息无关的背景信息，这在 2D 图像分支的有效性中起着至关重要的作用。然而，在边缘设备上实现这些方法仍存在一些局限性：(1) 网络中的复杂连接会导致显著的内存消耗。 (2) 在交叉注意力模块中，用于计算跨模态特征相似度的矩阵乘法运算需要大量的计算和存储空间。 (3) Softmax 中的复杂指数运算也是推理延迟的主要来源。

图 4. 通用交叉注意力模块的结构以及我们提出的跨模态热图注意力模块 (CMHA)。如图所示，我们的 CMHA 在特征尺寸上保持与输入特征的一致性，使其相对轻量化。

为了解决上述问题，我们提出了跨模态热图注意力模块 (CMHA)，实现了包含跨模态相关性的融合注意力掩码。CMHA 的详细结构如图 4(b) 所示。CMHA 首先使用逐点卷积操作并随后使用 Sigmoid 激活函数预测 LiDAR BEV 热图以及图像热图。由于点云编码沿 Z 轴进行，LiDAR 热图从 BEV 视角生成。我们遵循 BEVFusion [^76]，并通过 LiDAR-至-图像视图变换模块及标定矩阵将 LiDAR BEV 热图投影到图像视图。随后，LiDAR BEV 热图可被转换到与图像热图相同的视图并与之融合。基于此，包含 LiDAR 点云特征的融合注意力掩码最终用于生成增强的图像特征。

至于地面真实 LiDAR 热图 HM_{L} 与图像热图 HM_{I}，它们与 CornerNet ⁶⁴ 和 CenterNet ⁶⁵ 所使用的关键点热图一致。地面真实 HM_{L} 与 HM_{I} 的中心都被投射到热图 HM 上，使用高斯核，其表示方式为

\begin{equation*} HM = exp\left \{{{-\frac { (x-gt_{x})^{2} + (y-gt_{y})^{2} }{2 \sigma _{gt}^{2} }}}\right \} \tag {4}\end{equation*}

其中 (gt_{x}, gt_{y}) 是地面真实中心的坐标，\sigma _{gt} 是基于对象尺寸自适应的标准差 ⁶⁶。如果同类别的两个高斯核重叠，我们取它们的逐元素最大值。与 Fig. 4(a) 中典型的交叉注意力模块相比，我们的 CMHA 产生类似的注意力掩码。然而，交叉注意力模块通过乘法得到的 LiDAR 与图像特征矩阵融合注意力掩码，其尺寸远大于 CMHA 的掩码形状。此外，CMHA 避免了矩阵乘法和 Softmax 的复杂运算。最小的内存消耗和简单的运算有利于边缘应用。

此外，我们的 CMHA 通过预测热图显式学习捕捉前景位置的能力，从而促进训练的快速收敛。然而，交叉注意力模块依赖于模态之间的相似度计算，需要多种模态对同一对象具有相似的表示，从而导致较高的学习成本、更高的特征提取网络要求，以及训练收敛困难。

D. 跨模态特征交互模块

在获取检测结果之前，增强的图像特征（主要包含前景物体信息）将通过跨模态融合模块与 LiDAR 特征进行融合。该模块的设计直接影响与物体相关特征的表达能力。

为促进跨模态信息的交互，常用的方法包括简单相加或拼接，以及自注意力模块等。我们发现简单相加和拼接可能导致特征混淆。此外，自注意力模块及其变体在硬件实现上仍然成本高昂。

受 Metaformer [^49] 工作所展示的高性能启发，我们提出了具有 Metaformer 类框架的跨模态特征交互模块 (CMFI)，用于融合异构特征并进一步提取与任务相关的信息。

如图 1 所示，在将图像特征与 LiDAR 特征在二维空间中拼接之前，增强的图像特征首先会通过图像到 LiDAR 的视图变换模块投影到 LiDAR 平面上。图 5 中，LiDAR 特征首先经过 1\times 1 卷积的预编码，然后通过拼接混合器将 LiDAR 与图像特征的统一视图进行融合。随后，再加入一个 1 \times 1 卷积以降低通道尺寸。值得注意的是，我们在 CFMI 中使用残差来增强 LiDAR 特征的传播和融合。最终的 MLP 会先扩展再压缩通道，不使用任何中间 BN 层，从而实现通道间信息的充分交互。这同样是 Metaformer 架构中一个有效的特征融合模块。

图 5. 所提出的跨模态特征交互模块 (CMFI) 的结构.

E. 训练损失

所提出的 TinyFusionDet 采用端到端方式训练。遵循 SECOND ⁶⁷ 与 PointPillar ⁶⁸ 的方法，本文引入了类似 SSD 的检测头，用于分别预测对象的类别、边框和方向，使用置信度损失 L_{cls}、方向损失 L_{dir}、回归框损失 L_{box}、LiDAR 热图损失 L_{HML} 与图像热图损失 L_{HMI}，其定义如下

\begin{align*} L & =\alpha _{cls}L_{cls} + \alpha _{box}L_{box} + \alpha _{dir}L_{dir} \\ & \quad +L_{HMI} + L_{HML} \tag {5}\end{align*}

其中，\alpha _{cls}、\alpha _{box} 与 \alpha _{dir} 分别为超参数，设置为 1、2、0.2，用于平衡各损失项。

根据 CornerNet ⁶⁹ 与 CenterNet ⁷⁰，我们特别制定了热图损失函数，采用惩罚降低的像素级逻辑回归并结合焦点损失 [^77] 如下

\begin{align*} & L_{HM} = \\ & \quad -\frac {1}{N_{pos}} \sum _{xy} \begin{cases} (1 - \hat {HM})^{\alpha } log(\hat {HM}) & if \: HM=1 \\ \\ (1 - HM)^{\beta }(\hat {HM})^{\alpha }\\ log(1-\hat {HM}) & otherwise \end{cases} \tag {6}\end{align*}

其中 \hat {HM} 表示预测热图。注意，LiDAR 热图损失 L_{HMI} 与图像热图损失都由 L_{HM} 实现。\alpha =2 和 \beta =4 指代焦点损失的超参数，而 N_{pos}' 表示中心数。

第四节. 基于 FPGA 的原型系统

A. 原型系统架构

为验证在边缘设备上应用的可行性，我们设计了基于 Xilinx ZYNQ XCZU9EG FPGA 的原型系统，用于部署我们提出的 TinyFusionDet。根据图 6 所示的整体架构，我们的原型加速器主要由系统控制器、内存单元和计算单元组成。

Fig. 6. FPGA 基础原型系统的硬件架构.

系统控制器负责解析自定义的 128 位指令、控制加速器的状态、管理数据读/写操作，以及处理外部内存的读/写操作。内存单元可划分为三个功能部分：指令缓冲区、权重缓冲区和两个张量缓冲区，分别存储指令、权重参数和特征图。计算单元实现多种神经网络算子，如卷积、批归一化（BN）、池化、激活函数。计算单元通过 256 位内部数据总线直接连接到内存单元中的缓冲区。

B. 算法与硬件的协同设计

为实现能效推理，我们按以下方式开展算法模型与加速器硬件的协同设计。

1) 计算单元：

鉴于常规 3 \times 3 卷积的显著硬件成本，TinyFusionDet 采用深度可分离卷积，其中 DWConv 和 PWConv 模块分别由 288 和 1024 个处理单元（PE）组成，支持 int8 乘法和加法。卷积输出通常随后进行 BN 操作。

通过同时访问多个读/写接口，我们实现了在一个周期内读取输入张量和权重以及写入输出张量，从而提升效率。为进一步降低内存访问次数，BN和ReLU均被集成到卷积操作流水线中。

某计算单元的工作流程如下： (1) 获取并解码指令； (2) 由系统控制器选择操作模块； (3) 从相应缓冲区读取输入张量和权重； (4) 执行计算并写入输出张量。

2) 张量布局：

通过观察计算过程，我们发现不同的神经网络操作在不同维度上访问特征。例如，拼接操作沿着 W_{f} 访问张量，而嵌入操作沿着 C_{f} 进行。其他操作与访问顺序无关，例如上采样、逐元素相加和逐元素相乘。显然，统一的数据布局无法满足所有访问模式。因此，我们提出为张量实现两种布局，如图 7(a) 和 (b)。对于空间优先张量布局，它首先按 H_{f}W_{f} 的顺序存储，然后按顺序连接不同通道。相反，通道优先张量布局通过在通道上连续连接每个像素来存储特征张量。如图 7 所示的不同布局旨在使张量的访问尽可能顺序化。

图 7。TinyFusionDet 所提出的张量布局的典型配置，可优化顺序内存访问并降低推理时间。

自然，不同的操作会根据内存访问顺序支持相应布局的张量作为输入。例如，PWConv 和连接使用空间优先张量布局，而 DWConv、加法、上采样和嵌入采用通道优先张量布局。特别地，我们使用经典的 im2col 操作实现 PWConv，使用卷积流水线方法实现 DWConv。im2col 操作将张量重新排列为 C_{f}H_{f}W_{f} 格式，符合空间优先布局。相比之下，流水线方法需要在一行中同时访问多个通道，对应通道优先布局。

此外，我们实现了 Move 操作来转换张量的布局。为了防止频繁的布局转换影响效率，DWConv 和 PWConv 的主要计算模块支持根据下一操作在编译时选择输出张量布局。

3) 内存单元:

设计中最关注的是平衡内存效率与计算精度。根据大量实验，我们首先确定 3D 特征提取器中的网格尺寸为 (0.08m, 0.08m) 和 (0.16m, 0.16m) 以保证精度。随后，考虑到 FPGA 的片上内存，我们通过调节相应的检测范围为 [3m, -10.24m, 28.6m, 10.24m] 和 [3m, -20.48m, 54.2m, 20.48m] 来控制输入伪图的大小。因此，输入伪图的尺寸为 (320, 256)。相应地，来自摄像头的输入图像分辨率设置为 (512, 160)，以匹配伪图尺寸。

随后，我们调节网络宽度，并将输入和输出张量缓冲区均设为 1280KB。为了充分利用张量缓冲区，我们将 Image/LiDAR 特征提取器浅层的 LRB/DSLRB 的原始反向残差结构改为残差结构。具体而言，我们在 LRB/DSLRB 块中设置 2 C1 = C2，以确保加法和点卷积操作都满足张量缓冲区的尺寸，从而实现更高的存储利用率。

最后，安排了一个1280KB的大型权重缓冲区，以实现完整的片上权重访问，同时降低功耗和推理延迟。

第五节：实验

A. 训练策略

1) 数据集:

遵循流行的3D检测模型的做法，我们在KITTI [^50] 和 nuScenes [^51] 数据集上开展实验。KITTI 训练集包含 7481 个样本，而测试集包含 7518 个样本。为实验研究，我们按照 [^78] 将官方训练集划分为 3712 个训练样本和 3769 个验证样本。根据 KITTI 基准，我们关注 Car、Cyclist 和 Pedestrian 的 AP 以比较准确率。该数据集将 3D 边界框按高度、遮挡程度和截断比例划分为三个难度等级（易、中、难）[^50]。在实验中，这三个难度等级的准确率将分别计算。

至于 nuScenes 数据集，它是一个用于 3D 检测的大规模自动驾驶数据集，分别包含 700、150 和 150 个训练、验证和测试场景。每个样本包括一个 360 度的 LiDAR 点云和六张高清摄像头图像。该数据集包含 23 个不同对象类别的标注，并被划分为 10 类，例如车、卡车、巴士、挂车、建筑车辆（C.V.）、行人（Ped.）、摩托车、自行车、交通锥（T.C.）和护栏。为比较准确率，nuScenes 采用标准指标平均精度（AP）。

2) 训练设置:

在 KITTI 和 nuScenes 上实现 TinyFusionDet 时，我们使用真实框的统计信息为每个类别自定义预设锚框尺寸，并采用相同的数据增强方法。遵循 SECOND 和 PointPillars 方法，我们采用随机翻转、在 [-\pi /6, \pi /6] 之间进行随机 Z 轴全局旋转以及全局缩放（缩放因子为 [0.95, 1.05]），以增强空间变异性并提升泛化性能。此外，我们对点云和图像分支都应用真实框采样。在添加真实框样本时，我们还避免样本遮挡，并保证与点的映射关系。

在 KITTI 上，TinyFusionDet 在 4 台 NVIDIA RTX2080Ti GPU 上以 16 的 batch size 训练 100 个 epoch，采用端到端方式且不使用任何预训练参数。在 nuScenes 上，我们在 4 台 NVIDIA RTX3090 GPU 上以 16 的 batch size 训练 TinyFusionDet 30 个 epoch。其余所有训练参数保持不变。训练中采用 Onecycle [^79] 学习率调度器和 Adam [^80] 优化器。 Onecycle 中的最大学习率为 0.03，pct start（学习率递增部分的比例）为 0.4，权重衰减为 0.01。

B. 在 KITTI 上的实验研究

由于 TinyFusionDet 是一个超紧凑的 LiDAR-摄像头融合 3D 目标检测框架，我们不仅关注检测精度，还特别关注推理阶段的内存占用和延迟。

1) 准确率结果:

正如表 I 所示，KITTI 验证集上的准确率，我们提出的 TinyFusionDet 在中等难度下实现了 65.83% 的 mAP。与单模态 LiDAR 方法相比，我们的方法比代表性轻量级 PointPillars 提升了 1.75%。至于 PointRCNN 和 3DSSD，我们的体素方法在推理延迟（表 V）和存储空间（表 IV）方面具有显著优势，尽管准确率略有下降。与体素方法如 SECOND 和 H^{2}3D-RCNN 相比，TinyFusionDet 在特征图的内存消耗上显著更低。即使与 LiDAR-Camera 融合方法相比，我们的准确率也明显超过 MV3D、PointFusion、F-PointNet 和 AVOD。然而，由于 EPNet 使用了复杂的点基础网络，而 CAT-Det 采用了 Transformer 框架，它们在小目标检测（如行人）方面相对优于我们的体素 TinyFusionDet。其原因在于 LiDAR 对行人的点数稀少，通常仅有十几点，且行人目标体积小，易与其他杂乱背景混淆，导致检测准确率显著降低。如表 II 所示，KITTI 测试集上的准确率评估也证明，我们提出的框架在保持竞争性准确率的同时，硬件消耗大幅降低。

表 I

表 II

表 III

表 IV

表 V

值得注意的是，作为 TinyFusionDet 的子网络，基线模型（未包含 HSPS、CMHA 和 CMFI 模块）的准确率也在表 I 和表 II 中展示。可以观察到，小目标（如行人和骑行者）的检测准确率显著提升约 10%，而大目标（车辆）的提升不到 1%。同时，我们在表 III 中展示了融合方法相较于单模态方法在 KITTI 测试 BEV 基准上的性能提升。如所见，TinyFusionDet 的绝对精度并不算很高，但跨模态特征融合带来的性能提升相对竞争者更为显著，尤其是在小目标（如行人和骑行者）的准确率提升方面。原因在于：(1) HSPS 引入了更细粒度的伪图作为输入，提供了更详细的小目标 3D 信息；(2) CMHA 从 LiDAR BEV 视角融合了更多关注，显著增强了小目标的 2D 特征；(3) 由于 3D 框由中心坐标和尺寸组成，较大目标相比，小目标的热图更接近其空间中心。基于此，TinyFusionDet 中专门设计的特征提取与融合模块更能提升小目标的准确率。

2) 内存消耗:

特征图和权重参数是内存消耗的主要来源。一般而言，特征图需要频繁访问，因此采用高速内存，例如靠近计算单元的 RAM。相比之下，权重参数通常体积庞大，通常存储在高容量内存中，如 ROM 或 Flash。减少内存消耗将同时提升推理速度和降低功耗。

我们将所提出的 TinyFusionDet 的内存消耗与现有最先进的方法在表 IV 中进行了比较，包括特征图和权重的最大尺寸。可见，TinyFusionDet 的权重大小远小于竞争者，验证了我们提出的模型在表达效率上的卓越表现。此外，TinyFusionDet 在仅使用原始点输入时产生的特征图略多于 3DSSD，并且在较大幅度上优于其他基于体素和融合的方法。综上所述，只有我们提出的框架能够满足边缘设备的严格内存约束。

3) 推理延迟:

鉴于推理速度是另一个关键指标，我们专门在不同计算能力的 GPU 上实现 TinyFusionDet，并在表 V 中展示了延迟。在测试阶段，我们将批量大小设置为尽可能大，以充分利用每台 GPU 的性能。GPU 的计算能力以每秒浮点运算次数（FLOPS）衡量。根据计算能力，我们将竞争者的推理延迟分为三类。

首先，我们在计算能力最低的 GPU（GTX 1050Ti）上实现 TinyFusionDet，并实现了 72.92ms 的延迟，这大约比 MV3D 和 PointFusion 分别低 5\times 和 17.8\times。在 GTX 1080Ti 上，我们的延迟排名第二，仅比 PointPillars 高 6.38ms。原因在于我们的多模态融合范式需要比单模态 PointPillars 更多的分支、计算和内存访问。即便如此，我们的方法仍显著快于其他基于 LiDAR 的方法，例如 SECOND、融合式 F-PointNet 和 3D-CVF。此外，GTX 2080Ti GPU 上记录的最小延迟为 16.93ms，推动了高性能融合式目标检测框架在高实时场景中的应用。值得注意的是，TinyFusionDet 通常在保持相近 mAP 的同时实现更低的延迟，证明其高推理速度并不以牺牲检测精度为代价。换句话说，TinyFusionDet 在延迟与性能之间实现了卓越平衡，拓展了其在边缘设备上的应用。

4) 鲁棒性分析:

为全面评估在密集和稀疏场景下的检测准确性，我们根据 EPNet++ [^40] 和 FBMNet [^81] 在不同束数设置下与竞争方法进行对比。如表 VI 所示，虽然在密集 64 声束 LiDAR 上的准确率较低，但我们的 TinyFusionDet 在稀疏 8 声束 LiDAR 上表现出显著的优势，在中等难度级别上分别超过单模 Voxel RCNN 和 PV-RCNN，mAP 分别提升 12.57%、3.84% 和 28.38%。同样，在中等难度级别的车辆和骑行者集合上，TinyFusionDet 分别比基于融合的 EPNet++ 提升 5.49% 和 19.46% 的 mAP。对于更具挑战性的行人集合，在稀疏 8 声束 LiDAR 点作为输入的硬难度级别下，TinyFusionDet 仍然在 Voxel RCNN、PV-RCNN、仅使用 LiDAR 输入的 EPNet 以及采用更轻量级骨干网络的 EPNet 上分别取得 3.74%、9.37%、4.33% 和 0.12% 的显著 mAP 增益。

表 VI

更显著的是，从与现有单模和融合基方法的完整对比中可以清晰观察到，TinyFusionDet 在点云密度从 64 声束降至更稀疏的 16 声束和 8 声束时，mAP 降低幅度显著更小，这表明我们提出的方法在远程或小目标检测任务中具有更强的鲁棒性。

C. 在 nuScenes 上的扩展实验

为评估泛化性能，我们进一步在 nuScenes 测试集上验证我们提出的 TinyFusionDet。需要注意的是，配置与 KITTI 上保持一致，例如柱编码策略和网络架构。为明确说明，Tab. VII 所示的准确率基于官方测试基准，而推理速度均在 NVIDIA GTX 3090 GPU 上实现。

表 VII

如表 VII 所示，我们提出的方法在 nuScences 测试集上的准确率优于部分参数或特征图规模更小的最先进工作。在推理速度方面，我们的方法明显优于所有基于 LiDAR‑摄像头融合的算法。原因在于，所提出的 TinyFusionDet 的计算量和存储空间远低于表 VIII 中列出的竞争方法，从而实现了在边缘设备上的实时部署。同样，tiny backbone 网络有限的表示能力导致检测准确率相较于大型模型下降，例如 PointAugmenting [^32]、TransFusion [^42]、BEVFusion [^76] 等。

表 VIII

D. 消融研究

在本节中，我们通过与相同数据处理和训练设置相同的消融实验验证每个提出组件的有效性。评估中使用了三个中等难度类别的 AP 准确率指标。

1) HSPS 的影响:

为验证所提出 HSPS 的作用，我们将不同设计与多尺度体素融合与未使用 HSPS 的基线进行比较，基线如表 IX 行 1 所示。至于第 2-4 行，我们分别使用 add、concat 和 embedding 方式融合多尺度 3D 特征。

表 IX

总体而言，使用 HSPS 的设计能获得更高的准确率，表明多尺度特征有利于对大尺寸和小尺寸物体的检测。由于内在伪图尺寸不同，‘add’ 与 ‘concat’ 均需引入零填充以实现对齐，唯独我们提出的 embedding 操作除外。填充操作导致带填充零和不带填充零区域特征融合失衡，从而显著降低准确率。

在内存消耗方面，“add”需要同时存储全局字段特征图（640KB）和局部字段特征图（160KB）。“concat”需要将局部字段特征图填充到全局字段特征图的大小，然后连接这两个特征图，总共消耗1280KB。然而，嵌入操作作为一种直接替代，不会对局部字段特征图产生额外消耗，仅消耗640KB，在准确率和内存消耗两方面都具有优势。

2) DSLRB 的效果:

为了证明所提出的 DSLRB 在提取大物体特征方面的有效性，我们在 3D 特征提取器的骨干网络中引入 LRB 和 DSLRB，以不同配置表示构建块 G1、G2 和 G3。

如表 X 所示，随着 LRB 逐步被 DSLRB 取代（从第 1 行到第 3 行），mAP 持续提升。原因在于 DSLRB 中额外的 DWconv 加强了特征表达。然而，当 G1 在第 4 行进一步被 DSLRB 替换时，mAP 反而下降，因为过多的 DWconv 可能导致从超大尺度感受野中出现特征损失。显然，较小物体的 AP 更容易受到浅层多余 DSLRB 的影响。总体而言，第 3 行的最佳配置在大物体和小物体方面都具有显著优势。

表 X

3) CMHA 的效果:

为说明所提出的 CMHA 的效果，我们在表 XI 中比较了 TinyFusionDet 在不同热图注意力策略下的检测精度和内存消耗。第 1 行展示了不使用 CMHA 的基线模型，这表明由特征提取器生成的图像和 LiDAR 特征通过随后的 CMFI 直接融合。结果显示，基线模型的精度最差，原因在于 2D 背景语义严重污染了 LiDAR 特征。

表 XI

与 4 头交叉注意力 2D 特征增强相比，我们的 CMHA 在 mAP 上提升了超过 3%，且 10\times 的内存消耗更低。原因在于 CMHA 明确学习对象分布，而交叉注意力则使用相似度粗略表示分布。因此，即使使用更强大的特征提取网络、重量 [^82] 更大，交叉注意力仍然表现出更差的准确性。

4) CMFI 的效果:

为证明所提出的 CMFI 的有效性，我们在表格 XII 中评估了跨模态特征融合的各种操作。对于传统方法中常用的加法和拼接 ⁷¹、⁷²、[^35]、[^39]，它们在直接融合在统一特征空间时导致 mAP 下降超过 2.5%。

表格 XII

此外，Transformer 基于自注意力框架在图像与 LiDAR 特征融合中普遍使用，相关工作 [^41]、[^42]、[^43]、[^44] 已被纳入比较。从表格 XII 的结果来看，我们的 CMFI 在 mAP 上优于自注意力 0.7%，且 5\times 的特征存储更低。原因是自注意力通过全局相似度计算来融合跨模态特征，需更大的特征图空间尺寸，导致高内存消耗。相反，我们的 CMFI 采用 Metaformer 框架 [^49]，以通道融合方式将局部对齐的图像和点云特征结合，实现在统一空间内的高效融合。

E. 在 FPGA 基于原型系统上的实现

基于预训练的 TinyFusionDet，我们首先应用量化感知训练 [^83]（QAT）算法，将特征图和权重参数量化为 INT8。随后，TinyFusionDet 的算法-硬件协同设计加速器被进一步部署到 FPGA 原型系统，在有限的硬件资源下，每帧 3D 目标检测耗时 46.65ms，如表格 XIII 所示。

表格 XIII

通过与表 XIV 中典型点云处理任务的 FPGA 方案（如点分类 [^70]、点分割 [^84]、[^85]、点目标检测 [^73]）进行比较，我们的系统在实现最高峰值性能 422.4GOPS 的同时，功耗为 3.674W，创下 114.97GOPS/W 的新记录能效。与之前的 TinyPillarNet 相比，该加速器支持更宽的卷积核尺寸和特殊操作（如串接和嵌入），使其能够执行基于跨模态融合的目标检测任务。此外，我们设计了张量布局并优化了批归一化计算，提升了工作频率和峰值性能，而功耗并未显著增加。

表 XIV

第六节结论

总之，本工作提出了一个极其轻量级的框架 TinyFusionDet，旨在在边缘计算场景中实现高精度的 3D 检测，解决了当前 LiDAR‑Camera 融合方法中高计算量和存储成本的主要挑战。通过在点云特征提取的主干中引入混合尺度体素策略（Hybrid‑Scale Voxel Strategy，HSPS），我们显著提升了小规模物体的检测精度。更进一步，创新的跨模态热图注意力（Cross‑Modal Heatmap Attention，CMHA）模块在 LiDAR BEV 热图的指导下，低内存、低计算成本地丰富了图像特征表示。基于 metaformer 的跨模态特征交互（Cross‑Modal Feature Interaction，CMFI）模块最终被提出，用以全面表征图像与 LiDAR 点云特征的融合，支撑后续检测任务。广泛的实验表明，TinyFusionDet 在实时实现方式下实现了可观的检测精度，并创下最低存储成本的新纪录。借助上述框架创新和相应的硬件设计，我们首次在资源受限的 FPGA 平台上部署并实现了 TinyFusionDet。

参考文献

J. Mao, S. Shi, X. Wang, and H. Li, “3D object detection for autonomous driving: A comprehensive survey,” Int. J. Comput. Vis., vol. 131, no. 8, pp. 1909–1963, Aug. 2023. DOI Google Scholar ↩︎
R. Qian, X. Lai, and X. Li, “3D object detection for autonomous driving: A survey,” Pattern Recognit., vol. 130, Oct. 2022, Art. no. 108796. DOI Google Scholar ↩︎
R. Girshick, “Fast R-CNN,” in Proc. IEEE Int. Conf. Comput. Vis. (ICCV), Dec. 2015, pp. 1440–1448. IEEE Google Scholar ↩︎
W. Liu, “SSD: Single shot MultiBox detector,” in Proc. 14th Eur. Conf. Comput. Vis. (ECCV). Cham, Switzerland : Springer, Oct. 2016, pp. 21–37. DOI Google Scholar ↩︎
J. Redmon and A. Farhadi, “YOLOv3: An incremental improvement,” 2018, arXiv:1804.02767. Google Scholar ↩︎
A. Bochkovskiy, C.-Y. Wang, and H.-Y. Mark Liao, “YOLOv4: Optimal speed and accuracy of object detection,” 2020, arXiv:2004.10934. DOI Google Scholar ↩︎
H. Law and J. Deng, “CornerNet: Detecting objects as paired keypoints,” in Computer Vision—ECCV 2018, V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, Eds., Cham, Switzerland : Springer, 2018, pp. 765–781. DOI Google Scholar ↩︎
X. Zhou, D. Wang, and P. Krähenbühl, “Objects as points,” 2019, arXiv:1904.07850. Google Scholar ↩︎
S. Shi, X. Wang, and H. Li, “PointRCNN: 3D object proposal generation and detection from point cloud,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Long Beach, CA, USA, Jun. 2019, pp. 770–779. IEEE Google Scholar ↩︎
Z. Yang, Y. Sun, S. Liu, X. Shen, and J. Jia, “STD: Sparse-to-dense 3D object detector for point cloud,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 1951–1960. IEEE Google Scholar ↩︎
B. Yang, W. Luo, and R. Urtasun, “PIXOR: Real-time 3D object detection from point clouds,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 7652–7660. IEEE Google Scholar ↩︎
Y. Yan, Y. Mao, and B. Li, “SECOND: Sparsely embedded convolutional detection,” Sensors, vol. 18, no. 10, p. 3337, Oct. 2018. DOI Google Scholar ↩︎
A. H. Lang, S. Vora, H. Caesar, L. Zhou, J. Yang, and O. Beijbom, “PointPillars: Fast encoders for object detection from point clouds,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Long Beach, CA, USA, Jun. 2019, pp. 12689–12697. IEEE Google Scholar ↩︎
J. N. C. Hayton, T. Barros, C. Premebida, M. J. Coombes, and U. J. Nunes, “CNN-based human detection using a 3D LiDAR onboard a UAV,” in Proc. IEEE Int. Conf. Auto. Robot Syst. Competitions (ICARSC), Trondheim, Norway, Apr. 2020, pp. 312–318. IEEE Google Scholar ↩︎
C. Chen, “DCPLD-Net: A diffusion coupled convolution neural network for real-time power transmission lines detection from UAV-borne LiDAR data,” Int. J. Appl. Earth Observ. Geoinf., vol. 112, Aug. 2022, Art. no. 102960. DOI Google Scholar ↩︎
Z. Ma, W. Yao, Y. Niu, B. Lin, and T. Liu, “UAV low-altitude obstacle detection based on the fusion of LiDAR and camera,” Auton. Intell. Syst., vol. 1, no. 1, pp. 182–191, 2021. DOI Google Scholar ↩︎
D. Amigo, J. García, J. M. Molina, and J. Lizcano, “UAV simulation for object detection and 3D reconstruction fusing 2D LiDAR and camera,” in Proc. 17th Int. Conf. Soft Comput. Models Ind. Environ. Appl. (SOCO). Cham, Switzerland : Springer, Oct. 2022, pp. 31–40. DOI Google Scholar ↩︎
U. Olawoye and J. N. Gross, “UAV position estimation using a LiDAR-based 3D object detection method,” in Proc. IEEE/ION Position, Location Navigat. Symp. (PLANS), Apr. 2023, pp. 46–51. IEEE Google Scholar ↩︎
M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen, “MobileNetV2: Inverted residuals and linear bottlenecks,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 4510–4520. IEEE Google Scholar ↩︎
D. Zhou, Q. Hou, Y. Chen, J. Feng, and S. Yan, “Rethinking bottleneck structure for efficient mobile network design,” in Proc. Eur. Conf. Comput. Vis. Cham, Switzerland : Springer, 2020, pp. 680–697. DOI Google Scholar ↩︎
X. Zhang, X. Zhou, M. Lin, and J. Sun, “ShuffleNet: An extremely efficient convolutional neural network for mobile devices,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 6848–6856. IEEE Google Scholar ↩︎
N. Ma, X. Zhang, H.-T. Zheng, and J. Sun, “ShuffleNet V2: Practical guidelines for efficient CNN architecture design,” in Proc. Eur. Conf. Comput. Vis. Cham, Switzerland : Springer, 2018, pp. 122–138. DOI Google Scholar ↩︎
J. Lin, W.-M. Chen, H. Cai, C. Gan, and S. Han, “MCUNetV2: Memory-efficient patch-based inference for tiny deep learning,” 2021, arXiv:2110.15352. Google Scholar ↩︎
K. Han, Y. Wang, Q. Tian, J. Guo, C. Xu, and C. Xu, “GhostNet: More features from cheap operations,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Seattle, WA, USA, Jun. 2020, pp. 1577–1586. IEEE Google Scholar ↩︎
M. Tan, “MnasNet: Platform-aware neural architecture search for mobile,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Long Beach, CA, USA, Jun. 2019, pp. 2820–2828. IEEE Google Scholar ↩︎
J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. L. Waslander, “Joint 3D proposal generation and object detection from view aggregation,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Oct. 2018, pp. 1–8. IEEE Google Scholar ↩︎
X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3D object detection network for autonomous driving,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Honolulu, HI, USA, Jul. 2017, pp. 6526–6534. IEEE Google Scholar ↩︎
C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum PointNets for 3D object detection from RGB-D data,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 918–927. IEEE Google Scholar ↩︎
K. Shin, Y. P. Kwon, and M. Tomizuka, “RoarNet: A robust 3D object detection based on RegiOn approximation refinement,” in Proc. IEEE Intell. Vehicles Symp. (IV), Jun. 2019, pp. 2510–2515. IEEE Google Scholar ↩︎
S. Pang, D. Morris, and H. Radha, “CLOCs: Camera-LiDAR object candidates fusion for 3D object detection,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Las Vegas, NV, USA, Oct. 2020, pp. 10386–10393. IEEE Google Scholar ↩︎
J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. L. Waslander, “Joint 3D proposal generation and object detection from view aggregation,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Oct. 2018, pp. 1–8. IEEE Google Scholar ↩︎
X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3D object detection network for autonomous driving,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Honolulu, HI, USA, Jul. 2017, pp. 6526–6534. IEEE Google Scholar ↩︎
C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum PointNets for 3D object detection from RGB-D data,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 918–927. IEEE Google Scholar ↩︎
S. Pang, D. Morris, and H. Radha, “CLOCs: Camera-LiDAR object candidates fusion for 3D object detection,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Las Vegas, NV, USA, Oct. 2020, pp. 10386–10393. IEEE Google Scholar ↩︎
J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. L. Waslander, “Joint 3D proposal generation and object detection from view aggregation,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Oct. 2018, pp. 1–8. IEEE Google Scholar ↩︎
X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3D object detection network for autonomous driving,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Honolulu, HI, USA, Jul. 2017, pp. 6526–6534. IEEE Google Scholar ↩︎
C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum PointNets for 3D object detection from RGB-D data,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 918–927. IEEE Google Scholar ↩︎
S. Pang, D. Morris, and H. Radha, “CLOCs: Camera-LiDAR object candidates fusion for 3D object detection,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Las Vegas, NV, USA, Oct. 2020, pp. 10386–10393. IEEE Google Scholar ↩︎
S. Shi, X. Wang, and H. Li, “PointRCNN: 3D object proposal generation and detection from point cloud,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Long Beach, CA, USA, Jun. 2019, pp. 770–779. IEEE Google Scholar ↩︎
Z. Yang, Y. Sun, S. Liu, X. Shen, and J. Jia, “STD: Sparse-to-dense 3D object detector for point cloud,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 1951–1960. IEEE Google Scholar ↩︎
C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum PointNets for 3D object detection from RGB-D data,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 918–927. IEEE Google Scholar ↩︎
C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum PointNets for 3D object detection from RGB-D data,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 918–927. IEEE Google Scholar ↩︎
S. Shi, X. Wang, and H. Li, “PointRCNN: 3D object proposal generation and detection from point cloud,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Long Beach, CA, USA, Jun. 2019, pp. 770–779. IEEE Google Scholar ↩︎
Z. Yang, Y. Sun, S. Liu, X. Shen, and J. Jia, “STD: Sparse-to-dense 3D object detector for point cloud,” in Proc. IEEE/CVF Int. Conf. Comput. Vis. (ICCV), Oct. 2019, pp. 1951–1960. IEEE Google Scholar ↩︎
B. Yang, W. Luo, and R. Urtasun, “PIXOR: Real-time 3D object detection from point clouds,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 7652–7660. IEEE Google Scholar ↩︎
B. Yang, W. Luo, and R. Urtasun, “PIXOR: Real-time 3D object detection from point clouds,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 7652–7660. IEEE Google Scholar ↩︎
Y. Yan, Y. Mao, and B. Li, “SECOND: Sparsely embedded convolutional detection,” Sensors, vol. 18, no. 10, p. 3337, Oct. 2018. DOI Google Scholar ↩︎
A. H. Lang, S. Vora, H. Caesar, L. Zhou, J. Yang, and O. Beijbom, “PointPillars: Fast encoders for object detection from point clouds,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Long Beach, CA, USA, Jun. 2019, pp. 12689–12697. IEEE Google Scholar ↩︎
Y. Yan, Y. Mao, and B. Li, “SECOND: Sparsely embedded convolutional detection,” Sensors, vol. 18, no. 10, p. 3337, Oct. 2018. DOI Google Scholar ↩︎
A. H. Lang, S. Vora, H. Caesar, L. Zhou, J. Yang, and O. Beijbom, “PointPillars: Fast encoders for object detection from point clouds,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Long Beach, CA, USA, Jun. 2019, pp. 12689–12697. IEEE Google Scholar ↩︎
J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. L. Waslander, “Joint 3D proposal generation and object detection from view aggregation,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Oct. 2018, pp. 1–8. IEEE Google Scholar ↩︎
X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3D object detection network for autonomous driving,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Honolulu, HI, USA, Jul. 2017, pp. 6526–6534. IEEE Google Scholar ↩︎
C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum PointNets for 3D object detection from RGB-D data,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 918–927. IEEE Google Scholar ↩︎
K. Shin, Y. P. Kwon, and M. Tomizuka, “RoarNet: A robust 3D object detection based on RegiOn approximation refinement,” in Proc. IEEE Intell. Vehicles Symp. (IV), Jun. 2019, pp. 2510–2515. IEEE Google Scholar ↩︎
S. Pang, D. Morris, and H. Radha, “CLOCs: Camera-LiDAR object candidates fusion for 3D object detection,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Las Vegas, NV, USA, Oct. 2020, pp. 10386–10393. IEEE Google Scholar ↩︎
X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3D object detection network for autonomous driving,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Honolulu, HI, USA, Jul. 2017, pp. 6526–6534. IEEE Google Scholar ↩︎
J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. L. Waslander, “Joint 3D proposal generation and object detection from view aggregation,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Oct. 2018, pp. 1–8. IEEE Google Scholar ↩︎
C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum PointNets for 3D object detection from RGB-D data,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 918–927. IEEE Google Scholar ↩︎
K. Shin, Y. P. Kwon, and M. Tomizuka, “RoarNet: A robust 3D object detection based on RegiOn approximation refinement,” in Proc. IEEE Intell. Vehicles Symp. (IV), Jun. 2019, pp. 2510–2515. IEEE Google Scholar ↩︎
S. Pang, D. Morris, and H. Radha, “CLOCs: Camera-LiDAR object candidates fusion for 3D object detection,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Las Vegas, NV, USA, Oct. 2020, pp. 10386–10393. IEEE Google Scholar ↩︎
C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum PointNets for 3D object detection from RGB-D data,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Salt Lake City, UT, USA, Jun. 2018, pp. 918–927. IEEE Google Scholar ↩︎
S. Pang, D. Morris, and H. Radha, “CLOCs: Camera-LiDAR object candidates fusion for 3D object detection,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Las Vegas, NV, USA, Oct. 2020, pp. 10386–10393. IEEE Google Scholar ↩︎
D. Zhou, Q. Hou, Y. Chen, J. Feng, and S. Yan, “Rethinking bottleneck structure for efficient mobile network design,” in Proc. Eur. Conf. Comput. Vis. Cham, Switzerland : Springer, 2020, pp. 680–697. DOI Google Scholar ↩︎
H. Law and J. Deng, “CornerNet: Detecting objects as paired keypoints,” in Computer Vision—ECCV 2018, V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, Eds., Cham, Switzerland : Springer, 2018, pp. 765–781. DOI Google Scholar ↩︎
X. Zhou, D. Wang, and P. Krähenbühl, “Objects as points,” 2019, arXiv:1904.07850. Google Scholar ↩︎
H. Law and J. Deng, “CornerNet: Detecting objects as paired keypoints,” in Computer Vision—ECCV 2018, V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, Eds., Cham, Switzerland : Springer, 2018, pp. 765–781. DOI Google Scholar ↩︎
Y. Yan, Y. Mao, and B. Li, “SECOND: Sparsely embedded convolutional detection,” Sensors, vol. 18, no. 10, p. 3337, Oct. 2018. DOI Google Scholar ↩︎
A. H. Lang, S. Vora, H. Caesar, L. Zhou, J. Yang, and O. Beijbom, “PointPillars: Fast encoders for object detection from point clouds,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit. (CVPR), Long Beach, CA, USA, Jun. 2019, pp. 12689–12697. IEEE Google Scholar ↩︎
H. Law and J. Deng, “CornerNet: Detecting objects as paired keypoints,” in Computer Vision—ECCV 2018, V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, Eds., Cham, Switzerland : Springer, 2018, pp. 765–781. DOI Google Scholar ↩︎
X. Zhou, D. Wang, and P. Krähenbühl, “Objects as points,” 2019, arXiv:1904.07850. Google Scholar ↩︎
J. Ku, M. Mozifian, J. Lee, A. Harakeh, and S. L. Waslander, “Joint 3D proposal generation and object detection from view aggregation,” in Proc. IEEE/RSJ Int. Conf. Intell. Robots Syst. (IROS), Oct. 2018, pp. 1–8. IEEE Google Scholar ↩︎
X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3D object detection network for autonomous driving,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Honolulu, HI, USA, Jul. 2017, pp. 6526–6534. IEEE Google Scholar ↩︎