近传感器 LiDAR 与视觉特征提取与通信实现低延迟道路侧协同感知
摘要
自动驾驶技术正迅速发展,主要分为两大策略:1)单车自主驾驶(SVAD)和 2)车路协同自主驾驶(VICAD)。SVAD 完全依赖车辆内部传感器和处理能力,而 VICAD 则通过将路侧基础设施、联网车辆和云服务整合为协同网络,以提升安全性和效率。尽管如此,VICAD 在高带宽数据传输和感知延迟方面仍面临挑战。为缓解这些问题,我们提出了一种创新的智能路侧单元(I‑RSU)平台,将感知、计算和通信整合为一个统一系统。该平台采用双神经处理单元(NPU)用于高效提取图像和 LiDAR 特征,并搭载基站级车联网(C‑V2X)通信模块,全部实现于现场可编程门阵列(FPGA)上。此方案通过在传感器附近进行计算并实现有选择的数据传输,降低了延迟和成本。我们的系统还支持多模态融合,提升整体感知和安全性。通过大量真实世界测试与仿真,我们的系统在端到端延迟方面实现了显著降低,为 VICAD 场景提供了可扩展的解决方案。
作者
Wei Zhang 信息与通信工程学院,上海大学,上海,中国 ORCID: 0009-0006-3274-8867
Yuhang Gu 信息与通信工程学院,上海大学,上海,中国
Beining Zhao 信息与通信工程学院,上海大学,上海,中国 ORCID: 0009-0006-4550-7974
Qingyu Deng 信息与通信工程学院,上海大学,上海,中国 ORCID: 0009-0004-5805-3866
Xinyu Chen 信息与通信工程学院,上海大学,上海,中国 ORCID: 0009-0008-4717-1962
Yi Shi 上海大学信息与通信工程学院,上海,中国 ORCID: 0000-0002-3240-7900
Limin Jiang 上海大学信息与通信工程学院,上海,中国 ORCID: 0009-0008-7034-5780
Shan Cao 上海大学信息与通信工程学院,上海,中国 ORCID: 0000-0003-3713-8671
Zhiyuan Jiang 上海大学信息与通信工程学院,上海,中国 ORCID: 0000-0002-8522-5721
Ruiqing Mao 清华大学电子工程系,北京,中国 ORCID: 0000-0001-7169-3922
Sheng Zhou 清华大学电子工程系,北京,中国 ORCID: 0000-0003-0651-0071
出版信息
期刊: IEEE Internet of Things Journal 年份: 2025 卷号: 12 期号: 17 页码: 36713-36729 DOI: 10.1109/JIOT.2025.3583443 文章编号: 11052245 ISSN: Electronic ISSN: 2327-4662, CD: 2372-2541
指标
总下载量: 110
资助
中国国家自然科学基金 (NSFC) (资助号:62271300 和 12141107)
上海市科学技术委员会 (资助号:24DP1501100 和 24DP1500600)
关键词
IEEE 关键词: Sensors, Laser radar, Real-time systems, Feature extraction, Cameras, Hardware, Data communication, Autonomous vehicles, Accuracy, Safety
索引条目: Cooperative Perception, LiDAR Features, Data Transmission, Communication Module, Roadside Units, Neural Network, Detection Accuracy, Feature Maps, Sensor Data, Object Detection, Pedestrian, Point Cloud, Real-time Performance, Small Objects, Transmission Delay, High Latency, Point Cloud Data, Lidar Data, Mobile Edge Computing, Large-scale Deployment, LiDAR Sensor, KITTI Dataset, LiDAR Point Clouds, Calculation Module, Camera Data, Real-time Data, Flow Data, External Memory, Convolutional Neural Network
作者关键词: Cellular-V2X(C-V2X),协同感知,神经处理单元(NPU),车-基础设施协同自动驾驶(VICAD)
未定义
第一节. 引言
自动驾驶正迅速成为影响汽车行业未来格局的关键技术。最近的进展分为两大技术策略:1)单车自动驾驶(SVAD),2)车-基础设施协同自动驾驶(VICAD)。SVAD策略要求每辆车利用自身的传感器阵列和计算能力来理解周围环境并实时做出决策。然而,由于传感器范围有限、视野受限和计算能力受限,该方法在复杂或变化的驾驶场景中可能面临挑战,影响其能力。相比之下,VICAD系统利用车辆、路侧基础设施和云端服务器之间的协同互动,促进共享环境感知和数据的分布式处理,从而帮助缓解单一传感器的局限性。
VICAD 系统具有多种潜在应用。在大型车辆遮挡视线的城市区域,路侧单元通过协同感知可帮助车辆检测隐藏的行人或骑行者。VICAD 提供实时地图更新,为车辆提供如施工区和障碍物等道路状况的最新信息,提升路线规划与安全性。在车辆停驶或事故等特殊交通情况下,路侧基础设施可以迅速检测到这些问题并通知附近车辆,使其能够调整驾驶策略。高效的计算与通信对 VICAD 来说至关重要,它们需要处理多模态传感器数据并提供实时感知更新。计算模块必须快速整合图像和 LiDAR 数据,而通信模块则需在最小延迟下传递关键信息,以实现及时决策。
尽管有这些优势,VICAD 系统仍面临若干重大挑战。VICAD 的真实应用 1, 2, 3 涉及安装摄像头、LiDAR 等传感器,以及移动边缘计算(MEC)节点和道路信息通信单元(RSU) 4,以实现实时数据处理,如图 1 所示。传输高带宽原始传感器数据在传感器与处理单元之间需要大量网络资源,并增加端到端延迟。大规模 LiDAR 点云和高分辨率图像产生大量数据流,要求在实时目标检测和数据融合方面具备强大的计算能力。不高效的通信框架可能通过在网络带宽上堆积冗余或未优化的传感器数据而加剧处理延迟。感知、计算与通信在各设备之间的分离导致数据流效率低下,硬件成本上升。目前的 VICAD 实现往往将计算分布在不同处理器上,导致来自内存访问延迟和碎片化数据传输的额外延迟。来自不同厂商的异构系统组件往往缺乏统一的处理流水线,导致协同感知结果不一致。
图 1. VICAD 系统中路边设备的组成,包括摄像头、LiDAR、MEC 节点、通信设备-RSU 等.
为减轻这些问题,我们提出了创新的智能路侧单元(I-RSU)平台,将感知、计算和通信集成到单一设备中。感知模块为摄像头和 LiDAR 传感器提供专用接口,并实时处理原始传感器数据,包括图像裁剪、缩放和 LiDAR 体素化,以降低特征提取前的计算复杂度。计算模块包含专为图像和 LiDAR 特征提取设计的双核神经处理单元(NPU)。通信模块基于 Cellular‑V2X(C‑V2X)协议栈,确保路侧单元与车辆之间的低延迟数据交换。我们通过实测路侧部署、KITTI 数据集 5 和 DAIR‑V2X‑I 数据集 6 对系统进行了全面实验验证。对于摄像头的目标检测,系统实现了端到端低于 100 ms 的延迟,且使用量化模型时精度下降可忽略不计。在整合图像和 LiDAR 数据时,平台显著提升了检测精度,尤其是在行人和骑行者等困难条件下。上述发现表明,系统能够在保持强大性能的同时有效降低延迟,并在复杂真实驾驶场景中表现优异。
我们的贡献可归纳为以下几点。
统一感知、计算与通信: 我们的平台将感知、处理和通信集成到单一设备中,简化硬件并比传统 VICAD 系统减少通信延迟。
近传感器处理: 图像和 LiDAR 数据预处理模块设计为在靠近传感器的位置执行计算,显著降低处理延迟。
自适应数据传输: 我们的系统提供灵活的数据传输选项,允许用户在发送最终检测结果或神经网络处理中的中间特征图之间进行选择,从而针对特定应用优化数据流。
多模态融合能力: 我们的平台配备摄像头和 LiDAR,支持多模态融合算法,提升安全性,提供更可靠的检测与感知能力。
Real-World Validation: 我们使用真实部署数据和已建立的数据集进行全面实验。我们的系统相比分布式VICAD架构具有更低的端到端延迟,使其在交叉路口等动态交通场景中更为有效。设备端处理和优化通信使得对意外路况的响应更迅速,提高安全性和系统效率。
本文其余部分的组织结构如下。第二节回顾了近年来关于基于LiDAR的检测、多模态融合算法以及来自各国的相关路侧系统的最新工作。第三节介绍了我们提出的系统的实现细节。第四节阐述了实验设置。第五节展示了仿真结果。最后,第六节总结了本文。
第 II 章 相关工作
A. VICAD 系统
VICAD 系统通过整合感知、计算和通信,利用路侧基础设施来提升自动驾驶。传统实现,例如华为的云边系统和百度的 Apollo Air 7,部署多传感器路侧单元以支持车辆感知。同样,像日本的 Smartway 8 和美国 ITS 计划 9 这样项目利用 DSRC 和 C‑V2X 来改善车辆协同。
现有的道路感知系统采用不同的硬件配置。Zhang 等人 10 提出了一种云-边缘协同系统,使用 NVIDIA Jetson AGX Xavier 边缘设备在本地进行处理,然后将数据发送至云服务器。此方案减轻了车辆的计算负担,但提高了网络依赖性,对实时安全关键应用提出了挑战。Xiang 等人 11 创建了一种多传感器融合系统,集成了 LiDAR 和摄像头,并连接到 Intel i9-10900x 与 RTX3090 进行处理。设备之间的数据传输增加了延迟,高昂的硬件成本限制了大规模部署。Vignarca 等人 12 开发了一套利用摄像头和 NVIDIA Jetson Nano 进行视觉跟踪的定位系统。分布式设备导致图像处理和数据传输的高延迟。其他研究则考察了网络化单元的协同道路感知。网络化 RSPU 13 利用多台配备笔记本 PC 的 RSU 进行数据处理,并使用 Intel Wi‑Fi 6 AX200 模块进行通信。然而,大规模部署需要大量成本,并且数据传输延迟高。
虽然这些分布式架构提升了道路感知能力,但它们面临高昂的硬件成本、设备间延迟增加以及系统同步复杂等问题。相比之下,我们提出的系统将感知、计算和通信整合在单一基于现场可编程门阵列 (FPGA) 的平台上。通过在 FPGA 上直接处理传感器数据,我们的方案最大限度地降低了传输延迟,减少了对昂贵计算设备和云计算的依赖,并提供了一种成本效益高、可扩展的实时协同自动驾驶解决方案。
B. 感知与计算硬件平台
考虑到功耗与性能,卷积神经网络(CNN)仍然是当前感知与计算硬件平台的主流解决方案。参考 14 与 15 提出了可重构的 CNN 加速器。参考 16 对卷积运算和池化电路以及权重与特征数据在内存中的布局进行优化,从而在资源受限条件下减少带宽访问并提升计算性能。参考 17 通过重构和优化乘加(MAC)单元来增强平台的灵活性和资源利用率,并通过 INT8 量化提升模型推理速度。目标识别在感知与计算硬件平台中起着重要作用,YOLO 由于其高精度与低延迟的优势,被广泛用于目标识别。参考 18 提出了基于 OpenCL 的软硬协同设计方法来加速 YOLOv2。它使用 PCIe 在 PC 与 FPGA 之间进行通信,吞吐量达到 2.13 TOPS。然而,由于 PC 的存在,该方法无法满足低功耗和高实时性能的边缘计算需求。参考 19 在 ZYNQ 系统上部署了 Xilinx 官方的 CNN 加速 IP,显著降低了开发复杂度,但面临计算密度低的问题。参考 20 通过软硬协同优化 YOLOv3-tiny,获得 95.08 GOPS 的吞吐量,但在适应性和配置灵活性方面面临挑战。参考 21 与 22 分别实现了 YOLOv4-tiny 与 YOLOv5 的硬件部署。然而,使用 Xilinx 的 HLS 工具进行硬件设计导致平台的延迟和功耗增加,同时兼容性不佳。
C. 基于 LiDAR 的感知
近期基于 LiDAR 的目标检测进展表现出若干关键算法,每种算法都有其独特的优点和缺点。基于网格的策略,例如 VoxelNet 23 和 SECOND 24,将 3D 点云转换为有组织的网格,以便利用 CNN 进行简化处理。然而,它们可能因离散化而导致信息丢失。相反,基于点的办法,例如 PointNet 25 及其后继算法 26 27,直接处理原始点云,保持细致的空间数据,以提升对复杂形状的准确性,但代价是更高的计算需求。混合技术,以 PointPillars 28 为例,将基于网格的效率与基于点的方法的精准细节相结合,在准确性与计算负载之间取得平衡。此外,先进方法,例如 PV-RCNN 29,通过整合 3D 体素网格来提升点云处理,改进特征提取和鲁棒性,虽然可能需要大量计算资源。在我们的系统中,保持计算需求与算法适应性之间的平衡至关重要。我们已针对 LiDAR 数据处理,对 PointPillars 的柱特征网络(PFN)模块 30 进行了优化和修改。该方法能够高效地将点云数据划分为柱体,提供比其他技术更低的计算复杂度。通过此过程生成的伪图像充当后续算法的有效输入,提升系统的适应性。
D. 视觉-激光雷达联合感知
在以 3-D 目标检测为目标的 LiDAR-摄像头融合领域,已有多种算法被设计用于高效地将 LiDAR 的深度信息与摄像头的详细视觉数据进行融合。早期方法如 PointFusion 31 和 MV3D 32 旨在整合这两种数据形式,但在对齐来自不同传感器模态的特征时经常面临挑战。AVOD 33 提出了基于锚点的技术以提高检测精度,然而它需要大量计算资源。F-PointNet 34 通过将关注点缩小到从 2-D 图像中识别出的特定感兴趣区域来提升效率,尽管其成功取决于初始 2-D 提议的质量。PointPainting 35 用图像的语义信息丰富了 LiDAR 数据,在复杂环境中实现了更好的检测效果;然而,该方法引入了额外的延迟。像 PI-RCNN 36 和 DeepFusion [^31] 这样的算法使用复杂的深度学习方法来集成数据,即使在杂乱的环境中也能实现可靠的检测,但会带来高昂的计算负担。3D-CVF [^32] 方法通过动态调整两种传感器的特征组合来增强融合,这有助于在各种条件下的适应性,然而也增加了计算需求。BEVFusion [^33] 的核心是构建鸟瞰视图模型,通过细化的融合方法实现精确检测,尽管它需要有效管理计算资源。在本研究中,我们通过将 YOLOv3 [^34] 与 PointPillars 37 的 2-D 检测结果结合,采用投票策略实现了结果级融合。在此过程中,神经网络的置信分数充当每个检测类别的投票,获得最多投票的类别被选为融合分类结果。
第三节:系统设计
A. 系统的一般架构
该系统采用模块化设计,将核心板与底板分离,并通过高速背板连接器连接。此设计显著减小整体产品尺寸,同时保持功能与性能。
核心板集成了两个 Xilinx 芯片,如图 2 所示:XCZ15EG [^35] 和 XC7K410T [^36],通过高速 Serdes 接口 [^37] 连接,利用 Xilinx 的 Serdes IP 实现无缝通信。除了这两个 Xilinx 芯片,核心板还配备了多个 DDR 内存模块,可通过 PS 或 Xilinx DDR Control IP 访问,以实现高效的数据操作。系统采用共享的双访问 Flash 存储器,在 XCZ15EG 与 XC7K410T 之间共享,以实现灵活的比特流更新。由于 XCZ15EG 在 Linux 系统上运行,其比特流从 SD 卡加载。XC7K410T 的比特流也可以存放在 SD 卡上,并通过 XCZ15EG 传输到共享 Flash。传输完成后,系统切换 Flash 接口,允许 XC7K410T 加载比特流并完成其启动序列。
Fig. 2. 硬件开发板,已标注组件.
底板设计旨在通过提供多种外设接口满足多样化的应用需求,如图 2 所示。这些接口包括系统日志用的 UART 接口、千兆以太网端口、FPGA 调试用的 JTAG 接口、用于连接摄像头的 MIPI 接口、SD 卡插槽,以及用于 4G/5G 模块连接的 USB 端口。此外,底板配备了 AD9361 无线电频率(RF)芯片 [^38] 和符合通信安全标准的安全芯片,提升系统对各种用例的适应性。
从工作流程角度看,如图 3 所示,XCZ15EG 负责相机相关数据处理。相机数据通过 MIPI 接口传输,经过裁剪、缩放、定点量化和重排等预处理步骤。处理后的数据随后被存储在 DDR 内存中,NPU 从中检索数据以执行目标检测。NPU 是一个专门设计的模块,针对神经网络推理进行优化,利用并行化数据处理加速计算,具体如 III-C 节所示。所选的离线训练神经网络模型被处理以提取权重参数,这些参数存储在 DDR 内存中,而网络结构则用于生成 NPU 的执行指令,指导操作,例如卷积。推理完成后,检测结果或特征图被再次存回 DDR,准备通过通信模块传输。与此同时,XC7K410T 负责 LiDAR 数据处理。原始 LiDAR 数据通过 PFN 和卷积模块进行预处理,将点云转换为伪图像,随后存储在 DDR 内存中。NPU 访问这些伪图像以进一步加速算法,执行特征提取和目标检测。结果随后写回 DDR,用于通过通信模块进行传输。
图 3. 系统数据处理流程。XCZ15EG 负责相机数据预处理和目标检测,而 XC7K410T 负责 LiDAR 数据预处理和特征提取。两台 NPU 在通过通信模块传输结果之前完成各自的任务。
B. 相机与 LiDAR 数据预处理
在我们的系统中,图像和 LiDAR 点云预处理模块均在 FPGA 上实现,保证了下游自动驾驶感知任务的高效实时处理。
1) 相机数据预处理:
图像预处理模块负责两个关键操作:1)裁剪和2)缩放,这两者对于为目标检测算法准备摄像头输入至关重要。裁剪步骤之所以必要,是因为摄像头捕捉到的是宽阔视野,可能包含不必要的区域。通过聚焦关键区域,例如道路或行驶路径内的物体,裁剪有助于减少随后阶段处理的无关数据量。
裁剪后,图像使用 Inter-Area 方法进行缩放,该方法在降采样图像时尤其有效。Inter-Area 方法通过对更大源图像的像素值取平均来工作,既保留重要细节,又将图像尺寸减小以匹配目标检测模型所需的输入尺寸。这种缩放不仅确保图像符合算法的输入规格,还减少了计算量。在 FPGA 上,原始图像数据通过 MIPI 按行顺序传输。我们的硬件能够在行间传输空隙期间完成图像裁剪和缩放,利用管线架构。这种方法将数据预处理延迟与数据采集集成,实现了近传感器级的预处理。
2) LiDAR 数据预处理:
LiDAR 点云预处理模块设计用于使用 PFN(PointPillars 网络架构中的关键层)处理数据 38。第一步是体素化,如图 3 所示,传入的点云数据被划分为固定大小的网格。所有位于同一网格单元内的点被归为一个称为柱体(pillar)的集合。体素化过程采用流水线设计,能够实时输出已完成的体素坐标和柱体,降低内存使用和延迟。下一步是提取柱体特征以生成伪图像,即图 3 中所称的特征提取器。
在大多数传统算法中,所有 LiDAR 数据都存储在内存中。柱子是在体素化过程完全完成后计算的。然而,我们观察到在处理完前 128 个点和后 128 个点后,根据 KITTI 数据集 39,体素坐标没有重叠。因此,一旦 LiDAR 旋转超过一定角度,之前生成的柱子就可以直接输出到下一阶段,而不必存储完整一次旋转的数据,从而实现连续批处理的流水线方式。详细过程如图 3 所示并描述如下。
a) 点预处理:
在本项目中,我们以数据包形式接收 LiDAR 点云数据,接收到有效的数据包信号后即可开始处理。对于位于定义兴趣区域内的点,使用乘法和位移技巧计算对应的柱坐标(pillar 坐标)。柱坐标计算完成后,对点云数据进行量化,以实现高效存储和处理。
b) 哈希映射:
我们的实现受 [^39] 的启发,该参考文献提出了一种基于体素中心的 3D 目标检测的体素编码加速器 (VEA) 架构。其包括一个通用体素生成器和一个功能扩展器。体素生成器将体素信息组织成分层表格,在片上存储高局部性体素数据,同时将占用大量内存的点数据放置在片外,以优化内存使用和计算。我们还对柱坐标应用随机生成的哈希函数矩阵,作为哈希键。此操作为每个点产生唯一的哈希映射,生成体素和点的索引。
c) 体素索引表查询与内存状态表更新:
随后,系统检查体素索引表,以确定体素索引是否已存在于 RAM 中。
如果体素索引已存在,系统将检索对应的 RAM 地址,并根据点索引将点数据放置在相应的列中。当点索引超过允许的最大值时,该点将被丢弃。
如果体素索引不存在,系统会参考内存状态表,使用无列表零树编码(LZC)算法 [^40] 在表中找到标记为“空”的地址。新的体素索引被存储在该位置,并且该地址的内存状态被更新为“可用”,如图3表中灰色高亮字体所示。
d) 包索引表和点索引表更新:
包索引表会更新为对应 RAM 地址的当前包号。点索引表也会更新,记录每个地址存储的点数。该信息确保在输出柱体时能够读取正确数量的点。
当一个包中的所有点都被处理完后,系统会在包索引表中找到对应当前包号减一的地址。随后将该地址在内存状态表中标记为“等待”。标记为等待的内存中的点随后按顺序输出,如图3体素化模块中的红色和紫色字体所示。数据输出后,内存状态从等待变为空,表示该地址已为将来使用释放。根据点索引表生成一个掩码,用于应用于正在读取的数据。
生成的柱体将被传入 1-D 卷积模块进行特征提取。处理完毕后,将坐标信息与提取到的特征相结合,并将结果映射到 DDR 作为伪图像,用于后续处理阶段。
算法1:二维卷积循环算法
for
n\_iy = 0toN\_iydo
forn\_if = 0toN\_ifdo
forn\_of = 0toN\_ofdo
forn\_ky = 0toN\_kydo
forn\_kx = 0toN\_kxdo
forn\_ix = 0toN\_ixdo
Pixel\_O__PH_REFLINK_000068__ += Pixel\_I__PH_REFLINK_000069__[n\_iy] * Weight__PH_REFLINK_000070____PH_REFLINK_000071__
end
结束
结束
结束
结束
结束
C. NPU 设计
NPU 设计由 Fig. 4 所示的两个关键组件组成:软件级编译器和硬件级推理加速器。
Fig. 4. NPU 编译器与硬件工作流程。NPU 编译器将神经网络的权重文件转换为 ONNX 格式,以实现信息提取和量化。DDR 存储预处理后的图像数据以及在网络结构为 NPU 硬件编译后生成的指令。硬件控制由控制器负责,而指令由解码器分析。Feeder 用于为后续卷积处理模块准备权重和特征图。卷积处理模块主要由乘法器、加法器和激活单元组成。结果将在池化模块后重新存回 DDR。
编译器通过量化和重新排序权重,将训练好的神经网络模型(如 Fig. 3 中列出的 YOLOv3 和 ResNet)与硬件计算规则对齐。此外,编译器根据网络结构生成执行指令,包含重要的神经网络参数,如权重和特征图的 DDR 内存地址、输入/输出尺寸、卷积核尺寸、并行输入/输出通道、数据流配置等。这些预处理步骤将神经网络转换为 NPU 硬件能够高效处理的格式。当 NPU 接收到处理后的特征图作为输入后,它将根据生成的指令执行网络推理操作。
NPU的硬件设计灵感来自于Hui的工作 [^41],采用可配置架构,引入了支持二维卷积的向量卷积机制,如图4所示。该方法能够高效处理各种数据流配置和并行处理方案。该加速器支持动态的输入/输出通道维度,并能适应更深层网络中不断减小的特征图尺寸。执行期间,NPU从外部存储器获取指令,对其进行解码以在控制器模块中生成控制信号,并将特征图、权重和偏置等必要数据加载到片上内存中,以启动卷积过程。后处理操作,包括ReLU [^42]、[^43]以及池化 [^44]、[^45],在将最终特征图存入DDR内存以供进一步处理或传输前对输出进行细化。
NPU执行的具体卷积过程在算法1中进行了详细说明,并在图5中作了示意。该加速器的设计能够处理多种卷积核尺寸,需要灵活的数据结构。它采用权重静止的数据流,其中特征图从DDR内存流式传输,同时网络权重保持在片上存储。为优化内存效率,系统优先完成特征图行上的所有计算,再获取新数据,从而降低冗余内存访问。NPU在设计时通过并行因子P_if和P_of进行配置,将循环迭代次数分别减少为N_if/P_if和N_of/P_of。循环1和2按时间优化顺序遍历卷积核,重新排列二维卷积过程,以最小化来自重叠感受野的重复读取。优化后的操作顺序为:Loop4、Loop1、Loop2、Loop6、Loop3、Loop5,利用行级特征图并行性,而非遍历完整特征图尺寸。
图5。细粒度卷积循环展开。Loop1对应卷积核的水平方向,Loop2对应垂直方向,Loop3对应输入通道,Loop4对应特征图的水平方向,Loop5对应垂直方向。
算法1:二维卷积循环算法
此外,芯片实现了一个灵活的数据流系统,采用向量化处理,确保在多个并行输出通道之间高效地管理权重和特征图。为适应不同特征图宽度,引入了计算掩码数组,通过在行中填充零并在向量处理引擎(VPE)中使用掩码信号来调节有效计算。此技术使系统能够适应不同的卷积配置,同时保持高效性。
此外,多尺寸卷积核支持通过分层存储结构实现,该结构在核行和列方向上管理部分和。向量卷积机制利用哈达玛积 [^46] 和向量加法操作,实现对多个特征图行和卷积核的并行处理。该方法降低了中间部分和存储开销。分层存储系统促进了这些部分和的高效累加,使得加速器能够通过调整处理单元中的累加次数来灵活调整核尺寸,消除了对复杂数据流再配置的需求。当前 NPU 支持广泛的神经网络算子,如表 I 所示,使其能够执行多种深度学习模型以满足实时应用。
表 I
D. C-V2X 模块设计
C-V2X技术由第三代合作伙伴项目(3GPP)在LTE Release 14(2017)中引入,[^47],旨在支持智能交通和无人驾驶的低时延、高可靠通信。在5.9 GHz ITS 频段运行,C-V2X 促进了直接(V2V、V2I、V2P)和基于网络(V2N)的通信,实现车辆与路侧基础设施之间的无缝数据交换。其应用包括协同自适应巡航控制、紧急车辆警报和车队编队,提升了交通安全与效率。作为VICAD系统的关键支持,C-V2X 允许实时数据共享,提升复杂驾驶环境中的态势感知和决策能力。在此基础上,我们的系统采用 ARM‑FPGA 联合设计架构,如图 6 所示,以满足无人驾驶的严格实时要求。ARM 处理器负责控制任务,而 FPGA 加速位级和符号级处理。表 II 展示了我们的 C-V2X 通信模块相较于 3GPP 标准基准的性能。
表 II
图 6. FPGA 和 ARM 上的 C-V2X 数据处理流程.
在 ARM 端,数据(如特征图、权重和偏置)通过数据加载模块加载到片上存储器中,并解码指令以产生传输控制信号。此步骤涉及使用 CRC 的错误检测,随后使用尾字节卷积码和速率匹配进行编码,随后再送往进一步处理。在接收端,ARM 处理包括信道估计、频率与时序偏移估计及补偿。信道估计通过计算参考信号的信道系数完成,然后对整个帧进行插值。ARM 还负责噪声功率估计,用于后续的软比特判决。
在 FPGA 侧,传输处理包括扰码、调制和资源映射,随后进行基于快速傅里叶变换(FFT)的 OFDM 信号生成。 此外,向量卷积和累加操作优化符号处理,在传输前添加循环前缀(CP)。 在接收端,FPGA 在接收信号后执行 FFT,将时域信号转换为频域。 它执行诸如直流分量去除、资源反映射以及通过对数似然比(LLR)估计进行软比特计算等操作。 此外,FPGA 处理频率和时序偏移补偿,这对于将接收数据与传输信号同步至关重要。 接收的符号被解调并使用 turbo 解码器解码,随后进行 CRC 验证。
在 RF 处理方面,系统负责 RF 前端的信号放大、滤波和调制。 定时同步与频率偏移估计确保接收信号与发送信号对齐,从而最小化相位噪声和失真。
E. 算法设计
针对基于相机的目标检测,我们在平台上使用了 YOLOv3-tiny,即 YOLOv3 架构的轻量化版本 [^34]。 该模型旨在计算效率高,适用于实时应用。 它采用跳跃连接结构,有助于保留早期层的特征,同时使网络能够专注于不同尺度的目标检测。 该架构在速度与精度之间取得平衡,非常适合嵌入式系统。
针对基于 LiDAR 的目标检测,我们采用了 PointPillars 40,并进行修改以优化中间特征或最终结果的传输。 若传输中间特征,我们通过引入 11 卷积减少通道数,使用 33 卷积降低特征图尺寸,从而解决 PointPillars 主干网络生成的三层特征拼接后大尺寸的问题,如图 7 所示。 该压缩减小了传输特征图的尺寸,在接收端则重建特征以用于后续目标检测。
图 7. PointPillars 架构的部分修改网络结构.
针对联合摄像头-激光雷达目标检测,我们实现了基于结果级的融合策略,将 YOLOv3 的 2D 检测结果与 PointPillars 集成。由于 YOLOv3 提供 2D 边界框,而 PointPillars 生成 3D 检测,我们首先使用激光雷达到摄像头的变换矩阵将 3D 边界框投影到图像平面,以确保空间对齐。投影后,我们采用基于投票的融合方法,每个网络为检测到的类别分配一个置信度分数作为投票。累计置信度最高的类别被选为最终分类结果。该融合方法有效利用了激光雷达的几何精度以及图像的丰富语义特征,提高了检测的鲁棒性,尤其在遮挡或光照不佳等具有挑战性的场景中。
所有部署在硬件上的算法都已进行量化感知训练(QAT)[^48]。QAT 在前向传播过程中模拟量化的影响(例如,降低权重和激活的位宽),使网络能够在训练期间适应量化引起的误差。这种方法在最小化后训练量化通常产生的准确率损失方面尤为有效。量化是使用 MQBench 框架 [^49] 实现的,该框架是一个强大的模型量化工具,支持多种深度学习平台。MQBench 为量化提供了统一的接口,并允许用户模拟不同的位宽配置,以优化模型在硬件上的部署。在我们的实现中,YOLOv3-tiny 使用 W8A8(8 位权重和激活)进行量化,而 PointPillars 41 则使用 W4A8(4 位权重和 8 位激活)进行量化,以实现效率与性能之间的更好平衡。
F. 大规模 VICAD 部署的可扩展性考量
随着传感器数量和数据吞吐量需求的增加,可扩展性在 VICAD 系统中变得至关重要。我们的系统采用三种潜在的可扩展策略,以适应更大规模的传感器部署和更高的数据速率。
Multidevice Deployment: 由于我们的低成本低延迟硬件设计,多个单元可以部署在交叉口或复杂道路环境中,以实时处理更多摄像头和激光雷达传感器。此模块化方法实现灵活扩展,而不显著增加基础设施成本。
Serial Processing: 我们目前采用顺序处理策略,多摄像头输入依次通过我们的 NPU 处理,确保高效使用计算资源,无需硬件修改。
Hardware Upgrade: 为了未来的 NPU 升级,我们计划引入批处理模式,通过增加管道中 MAC 单元的数量(如图 8 所示)来提升并行度。此升级将实现对多传感器输入的并行处理,同时保持高效的片上内存使用,因为权重参数在不同传感器流之间共享。
图 8. 未来 NPU 升级修改图。预处理模块可在几乎不增加资源消耗的情况下扩展。NPU 的 MAC 管线将增加额外的乘法器和累加器以支持并发计算。鉴于我们的 FPGA 板拥有充足的乘法器资源,且网络权重可在传感器之间共享,片上内存需求仍保持可控。
关于数据吞吐量,我们的 V2X 模块每帧支持最高 137792 位的传输。如果吞吐量需求超过此限制,我们将采用以下数据压缩技术:
Feature Map Compression: 在传输前使用自动编码器或低比特量化减小中间特征图尺寸,接收端再进行重建。
Lossy Compression: 采用主成分分析(PCA)等技术,保留关键数据特征的同时降低总体带宽消耗。
Sparse Representation: 仅传输特征图中的非零激活值,以减少冗余信息。
通过整合这些策略,我们的系统保持可扩展性并适应未来扩展,确保即使在高传感器密度和数据流量的大规模VICAD部署中,也能实现高效的感知、计算和通信。
第四节 实验设置
A. 数据采集
摄像机基准交叉口数据集于成都采集。我们的设备安装在交叉口交通灯旁,离地高度约5米。设备外壳采用 CNC 加工铝合金,具有优异的散热和防水性能。其防水防尘等级为 IP68 [^50],可在恶劣环境中提供保护。所有外部接口均使用航空级连接器 [^51],增强耐久性。设备的整体外观及实际部署位置如图 9 所示。设备到可见道路远端的距离约为200米,沿拐角延伸。我们在此真实场景下专门收集了数据集。关于该数据集的详细信息见第 IV-B 节。此外,我们使用 SinoGNSS GPSRTK 对道路进行地图绘制,获得 GPS 点与系统捕捉图像中的点之间的对应关系。利用 perspective-n-Point (PnP) 算法 [^52],我们计算了摄像机的外参。借助 MATLAB 工具箱 [^53] 和棋盘格图案,我们推导了摄像机的内参。对内参与外参的校准使我们能够在目标检测后将像素坐标转换为 GPS 坐标,从而将检测到的目标显示在车辆的地图上。
图 9. 系统部署与现场测试.
B. 数据集
本节描述了我们实验中使用的两个数据集。
第一批数据集由我们收集并标注,如图 IV-A 所示。该数据集共包含 6774 张图像,其中训练集为 5497 张,验证集为 1277 张。数据集标注了五个类别:1)汽车;2)公交车;3)卡车;4)行人;5)自行车。各类别的数据分布见图 10。
图 10. 交叉口数据集的类别分布。
第二个使用的数据集是 KITTI 数据集 42,它在自动驾驶研究领域被广泛认可,并为目标检测和三维点云分析提供了全面的数据。该数据集包含由配备摄像头、LiDAR、GPS 和 IMU 传感器的车辆捕捉的多样化真实驾驶场景。数据集包括超过 14,000 张标注图像和超过 80,000 张 LiDAR 点云,涵盖城市、乡村和高速公路环境。其丰富的注释,包括车辆、行人和骑行者的三维边界框,使其在开发和评估感知算法时尤其在传感器融合和三维场景理解方面具有不可替代的价值。
第三个数据集是用于路侧感知的 DAIR-V2X-I 数据集 43。DAIR-V2X-I 数据集包含 10,084 张路侧摄像头的帧图像和 10,084 张 LiDAR 的帧点云,按 50%、20% 和 30% 的比例划分为训练集、评估集和测试集。该数据集通过提供来自不同视角的同步传感器记录,支持合作感知算法的开发和评估,解决遮挡和传感器盲区等问题。
C. 实验配置
我们对 KITTI 数据集中的点云数据包大小设置进行了评估。该评估假设在一次扫描周期内,连续的 N 个点云数据点构成一个数据包。我们评估相邻 k 个数据包中的点云数据是否共享相同的柱(pillar)。如果来自数据包 j 与 j{+} i 的点云数据映射到同一柱,但中间数据包中的点不属于该柱,则来自 j{+} i 的点在处理过程中会被丢弃。随着 k 趋近于无穷大,我们得出了图 11 所示的结论:在一次激光雷达扫描周期内收集的 122 637 个点云数据点中,丢失点数会随着每个数据包的点数 N 的增加而逐渐下降。在综合考虑硬件资源限制和算法精度后,我们将 N 设置为 128,用于实验。
图 11. KITTI 数据集中被遗漏的点数与总点数比例.
在我们的实验中,摄像头以 30 Hz 的采集频率工作,图像分辨率为 19201080 像素。裁剪后,图像尺寸缩小到 600600,再重新缩放至 512*512,以满足后续处理的输入要求。关于通信模块,FPGA 上 C‑V2X 协议的配置详见表 III。
表 III
我们在两块 NVIDIA RTX 4090 GPU 上训练了所有算法。对于 YOLOv3 和 YOLOv3‑tiny,我们使用 Adam 优化器,初始学习率为 0.01,经过 300 个 epoch 逐渐衰减至 1\times 10^{-4},批量大小为 32。PointPillars 采用 Adam,初始学习率 0.001,300 个 epoch,批量大小 8。QAT 实验使用 MQBench 进行,其中 YOLOv3 用学习率 1\times 10^{-4} 进行微调,PointPillars 使用 3\times 10^{-4},两者再额外训练 50 个 epoch。为了对比,其他在 DAIR‑V2X‑I 数据集上训练的模型遵循 MMDetection3D 框架的参数设置,以确保一致性。
第五节 评估结果
A. 基于摄像头的算法硬件部署
在本实验中,我们使用 YOLOv3-tiny 作为检测网络。我们将使用 W8A8 量化的模型与全精度(F32)进行检测性能对比,如表 V 所示。可以观察到量化模型相较于 F32 版本存在性能下降。具体而言,由于车辆实例数量更多且车辆目标尺寸相对更大于行人,车辆的性能下降更小,下降幅度为 3.4 %。相反,行人的性能下降为 5.1 %。定性性能可见于图 12。
表 IV
表 V
图 12. 交叉口数据集中的目标检测结果.
表 IV 所示的硬件性能对比突显了加速器的效率和资源利用率。对于 YOLOv3-tiny 加速器,本工作在 XCZ15EG 平台上的实现显著提升了吞吐量,达到了 244.92 GOPS,相较于之前设计 44 与 [^54] 的 10.45 GOPS 与 31.50 GOPS。这比 45 提高了 23.4{\times },比 [^54] 提高了 7.8{\times },充分展示了我们架构在加速神经网络推理方面的有效性。
性能提升伴随着资源利用率的增加。所提出的加速器消耗 1024 个 DSP,6.4{\times } 比 46 更多,4.2{\times } 比 [^54] 更多。同样,LUT(169.8 k)和 BRAM(428)的利用率明显更高,反映出满足实时处理需求所需的更高架构复杂性。尽管如此,尽管使用量增加,我们的设计在 DSP 效率上达到了 0.24 GOPS/DSP,超过了先前工作中的 0.07 GOPS/DSP 和 0.13 GOPS/DSP,表明对计算资源的利用更高效。
此外,我们的加速器实现了仅 34.28 毫秒的端到端延迟,比 47 低 15.5{\times },比 [^54] 低 3.5{\times }。这种显著的延迟降低使得实时执行成为可能,这是自动驾驶应用的关键要求。此外,我们系统的功耗效率显著提升,达到了 21.48 GOPS/W,远高于之前设计的 2.03 GOPS/W 和 7.4 GOPS/W,使其分别比 10.6{\times } 和 2.9{\times } 更节能。
总体而言,所提出的加速器实现了卓越的性能,推理时间显著降低且硬件效率更高,使其非常适合 I-RSUs 中的高性能、实时感知任务。
B. 基于 LiDAR 的算法硬件部署
第二种情景涉及基于 LiDAR 的目标检测,我们采用了 PointPillars 48 架构。表 VI 展示了原始 PointPillars 网络与我们优化部署的准确率比较,显示在不同难度级别:Easy、Moderate、Hard 的准确率略有下降,这些评估依据 2‑D 检测、平均方向相似度 (AOS)、Bird’s Eye View (BEV) 检测和 3‑D 检测指标。准确率下降主要归因于我们在系统中所做的优化,以提升实时处理效率并减少资源消耗,这些优化在 III‑E 节中介绍。具体而言,我们的设计采用了低比特量化方案 (W4A8) 和优化的特征提取管道,以最小化计算开销。这些修改导致准确率略有下降,最大的降幅出现在 3‑D 检测的 Hard 难度(−3.08%)以及 BEV 检测的 Moderate 难度(−4.35%)。然而,尽管存在这些下降,我们的系统仍保持了竞争力的检测性能,同时显著提升了计算效率并降低了延迟。在实际应用中,准确率与效率之间的权衡对于需要快速响应的场景尤为重要,例如在人行道活动频繁和交通动态的城市交叉口。略微的准确率降低被系统能够实时处理 LiDAR 数据所抵消,确保了协同自动驾驶的感知更新及时性。这种检测性能与系统效率之间的平衡凸显了我们方法在对延迟敏感的环境中的适用性。图 13 直观比较了修改结构和量化后的 PointPillars 与原始 PointPillars 的 2‑D 检测结果。
表 VI
图 13. 在 KITTI 中可视化的 2‑D 目标检测对比结果。左侧两张图片分别是原始 PointPillars 的结果,右侧两张图片是我们工作的结果.
关于硬件实现,表 IV 突出了我们的 PFN 加速器与其他实现之间的性能对比。我们的设计在保持计算效率的同时,显著降低了 FPGA 资源使用。值得注意的是,与 [^39] 和 [^55] 中的 PFN 硬件模块不同,它们依赖外部存储来保存点云数据,而我们的方案将所有计算都放在片上,消除了对外部存储的需求。这确保了所有计入的资源都包含在综合结果之中。
与 [^55] 相比,我们的设计将 DSP 使用率降低约 15%,同时实现 204.8 GOPS 的吞吐量,这比 [^39] 高十倍,并且与其他最先进的实现相当。此外,我们的系统实现了 0.8 GOPS/DSP 的 DSP 效率,显著超过 [^39] 和 [^55],展示了我们最大化处理能力同时最小化计算开销的能力。我们的 Pillar Generator 模块通过避免与外部存储器的不必要交互,进一步将 9.7k 逻辑单元使用率降低,带来了更好的资源分配。虽然我们的 BRAM 使用量高于某些以前的设计(114 与 [^55] 中的 10.5),但这种权衡对于实现点云数据的片上缓冲是必要的,这简化了内存访问并最小化了实时处理期间的延迟。此外,PFN 处理模块的功耗效率达 211.13 GOPS/W,比 [^55] 高 45 倍。
此外,如表 VII 所示,我们的系统在编码和体素化上共用 0.48 ms,略高于 [^55](0.05 ms),但低于 [^39](4.09 ms)和 [^56](71.93 ms),仍然满足实时约束,并在内存效率与处理速度之间取得平衡。我们的系统实现了 7.5 ms 的骨干处理延迟,略高于 [^55] 的 6.18 ms,但显著低于 [^39] 的 33.87 ms。骨干阶段延迟的增加被整体系统效率所抵消,我们的集成设计确保数据能够顺畅通过流水线,无需频繁访问外部内存,降低潜在瓶颈,将我们的系统定位为低延迟、基于 LiDAR 的目标检测在自动驾驶应用中的稳健解决方案。
表 VII
C. 与现有 VICAD 系统的比较
表 VIII 中呈现的延迟比较评估了各种 VICAD 系统中的数据传输延迟,特别考虑了两个主要延迟组件:1)从路侧传感器(如摄像头和 LiDAR)到计算设备的传输延迟;2)RSU 到车辆的延迟。检测算法的处理时间未包含在此比较中,因为每个引用工作采用不同的检测模型,具有不同的计算复杂度。
表 VIII
对于传感器到计算设备的延迟,我们的系统实现了零传输延迟,这比其他实现有显著提升。这是因为我们的系统通过使用共享 DDR 内存实现感知、计算和通信模块之间的无缝数据交换,消除了外部数据传输的需求。相比之下,EdgeCooper [^57] 的延迟显著更高,达到 75 ms,因为它将原始点云数据传输到边缘设备进行进一步处理。同样,49 和 50 分别报告了 20 ms 和 14 ms 的延迟,原因是数据传输开销。
对于 RSU 到车辆的延迟,我们的系统保持了 6 毫秒的低延迟,6.7{\times }低于 51,33{\times }低于 52。53(198 毫秒)的延迟显著更高,主要归因于其依赖公共在线经纪商和 4G 调制解调器进行互联网通信,这引入了显著的网络延迟。相比之下,54 使用 Cohda MK5 Wireless RSU,一种商业通信模块,将传输延迟降低到 40 毫秒。参考 [^57] 通过优化通信管道实现了显著低的 5 毫秒延迟,尽管其传感器到计算的延迟仍然较高。
总体而言,我们的系统在两个阶段都能有效降低延迟,在实时路边感知和车联网协同通信方面展现出卓越的效率。共享内存机制的集成显著提升了系统响应速度,使其非常适合用于自动驾驶中的安全关键应用。
我们的系统功耗详见表 X,总功耗为 28.40 W。NPU 采用 11.44 W(40.3%),主要用于 FPGA 上的深度学习推理。C‑V2X 模块消耗 6.33 W(22.3%),负责实时数据传输。外部电路,包括功率放大器、5G 模块、GNSS 接收机、摄像头模块和射频电路,消耗 10.63 W(37.4%)。虽然系统保持了高效的功耗,但未来的优化,例如功率门控技术和传输效率改进,将进一步降低路边部署的能耗。
表 IX
表 X
D. 算法量化在 KITTI 数据集上
在本实验中,我们在 KITTI 数据集上评估了 YOLOv3 [^34] 与我们改进的 PointPillars 55 架构的融合效果,使用 2‑D 检测指标进行测量。如表 IX 所示,基于融合的算法相比单独使用任一模型显著提升了整体检测性能。量化的影响在不同物体类别之间存在差异,较大物体如车辆几乎没有性能下降,而较小物体,如行人和骑行者则更易受影响。具体而言,对于 PointPillars,量化模型在骑行者检测准确率下降 4.2%、行人检测准确率下降 6.2%,而车辆仅下降 1.1%。这种退化可归因于小物体特征对量化网络中较低数值精度的敏感性。同样,YOLOv3 在行人检测上下降 1.4%,骑行者下降 0.7%,但车辆检测准确率保持稳定。尽管存在这些下降,融合模型通过减轻准确率损失展示了鲁棒性。例如,融合方法将量化 PointPillars 模型在行人检测上 6.2% 的下降降至 1.7%,证明其在保持检测准确率方面的有效性。它还实现了 86.7% 的 mAP,仅比全精度版本低 0.9%,并显著优于单独的量化模型。显而易见,融合补偿了量化导致的损失,尤其针对小物体。三种算法的定性检测结果如图 14 所示。
图 14. KITTI 中的目标检测结果.
总之,YOLOv3 [^34] 与 PointPillars 56 的融合提供了性能与效率之间的平衡权衡,复合模型展示了更优的检测精度和鲁棒性,尤其在苛刻的现实环境中表现突出。此外,对两种模型成功应用量化技术确保了系统的高效性,使其适合在资源受限的环境中部署,例如路边基础设施。
E. 在 DAIR-V2X-I 数据集上的性能评估
表 XI 展示了 DAIR-V2X-I 数据集上的性能评估,比较了我们的融合方法与使用不同模态的最先进方法。
表 XI
对于 2-D 目标检测,YOLOv3 与 PointPillars 的融合方法在所有类别中取得最高精度,尤其在 Car 类别上检测准确率达 95.10%,明显超过 BEVHeight(81.95%)和 MVX-Net(21.39%)。这表明我们的融合方法有效整合了图像与 LiDAR 信息,提升了 2-D 检测精度。此外,在 Cyclist 与 Pedestrian 类别中,我们的方法分别取得 88.30% 与 83.60%,优于 BEVHeight(84.97% 与 62.70%),并显示出在检测较小物体方面的强大能力。
对于 3-D 与 BEV 目标检测,我们的方法在 Car 类别上与 SECOND 的表现相当,但在 Cyclist 与 Pedestrian 类别上存在局限。具体而言,SECOND 在 Cyclist 检测中的 3-D 准确率为 39.06%,而我们的方法仅为 30.35%;在 Pedestrian 检测中,SECOND 达到 53.98%,超过我们 38.71%。这一性能差距主要归因于使用 LiDAR 检测小型与远距离物体的困难,以及 YOLOv3 在处理此类目标时分辨率有限。相比之下,完全基于图像特征的 BEVHeight 在 Car 类别上取得相对较高的表现(3-D 77.05%,BEV 84.08%),但在 Cyclist(3-D 15.15%,BEV 18.97%)与 Pedestrian(3-D 3.90%,BEV 5.30%)方面表现欠佳。这凸显了仅依赖图像方法在准确估计深度方面的局限,尤其针对较小物体。
尽管 3-D 与 BEV 检测存在上述局限,但我们强大的 2-D 检测性能保证了可靠的感知结果,这对于基于 V2X 的物体定位与通信至关重要。未来的改进将聚焦于完善 LiDAR 特征提取,并引入多尺度融合策略,以提升 3-D 检测精度,尤其针对小型与远距离物体。
SECTION VI. 结论
在本研究中,我们提出了一种综合性的路侧单元平台,该平台集成了感知、计算和通信能力,专为协同式自动驾驶应用而设计。该平台采用基于FPGA的架构,配备双个NPU,以高效处理图像和LiDAR数据;同时,C‑V2X通信模块实现了低延迟的数据交换。我们的实验表明,该平台在真实路侧物体检测和基于融合感知场景中的有效性。
基于摄像头的目标检测系统实现了低于100毫秒的端到端时延,其中基于NPU的处理耗时34毫秒。基于LiDAR的检测保持了与PointPillars相当的性能,同时优化了FPGA资源使用。我们的设计将DSP利用率提高了20%,而体素化模块相较于PS侧实现实现了四倍的加速。YOLOv3与PointPillars的融合在KITTI数据集上达到了87.6%的mAP,证明了在复杂环境中的鲁棒性。为进一步验证我们的方法在真实路侧场景中的效果,我们在DAIR‑V2X‑I数据集上进行了评估。我们的基于融合的方法在二维检测上表现突出,汽车95.10%的mAP、骑行者88.30%和行人83.60%,超过了仅基于图像和基于点云的方法。然而,其三维和BEV检测性能落后于像SECOND等仅使用LiDAR的方法,尤其是对于小型和远距离目标,这突显了需要改进多尺度融合和LiDAR特征提取的必要性。除此之外,我们的系统相较于现有的VICAD路侧单元展现了更好的可扩展性和效率。通过在单一FPGA平台中集成感知、计算和通信,我们显著降低了设备间延迟,实现了RSU到车辆的传输延迟仅为6 ms–substantially lower than prior VICAD implementations。我们的硬件优化方案还降低了冗余数据传输,进一步提升了实时性能。
未来工作将涉及扩大系统与更多传感器接口的能力,并进一步优化神经网络模型,以提升在多样化驾驶环境中的性能。我们还计划改进 NPU 架构,以支持批处理和更高吞吐量,实现大规模交叉口的实时多传感器融合。此外,我们将探索自适应特征压缩和 V2X 消息编码优化,以应对大规模部署中的数据传输限制。