图像/点云处理加速器与芯片研究进展:文献综述 2025

1. 按时间顺序的文献分析

1.1 Fang et al. (2024) - DSAV: 体素化3D目标检测加速框架

发表时间: 2024年8月2日 单位: 重庆大学计算机学院 作者: Haining Fang等

主要问题:

设计与优化:

关键成果:

未解决问题: 未明确提及,但暗示需要在处理各种稀疏模式和优化结构化剪枝方面进一步改进

1.2 Lian et al. (2024) - 点变换器加速器

发表时间: 2024年8月16日 单位: 上海交通大学电子信息与电气工程学院 作者: Yaoxiu Lian等

主要问题:

设计与优化:

关键成果:

未解决问题: 未明确提及,但硬件利用率优化和大型数据集可扩展性仍是未来研究方向

1.3 Li et al. (2024) - SimDiff: 利用空间相似性的点云加速

发表时间: 2024年8月19日 单位: 中南大学计算机科学与工程学院 作者: Yangfan Li等

主要问题:

设计与优化:

关键成果:

未解决问题: 需要进一步优化高度不均匀点分布的处理和增强硬件可扩展性

1.4 Jung et al. (2024) - 实时语义LiDAR SLAM能效处理器

发表时间: 2024年9月6日 单位: 韩国蔚山科学技术研究院电气工程系和人工智能研究生院 作者: Jueun Jung等

主要问题:

设计与优化:

关键成果:

未解决问题: 未明确提及,但可能需要针对更大数据集或更复杂环境的可扩展性进一步优化

1.5 Lefebvre & Bol (2024) - MANTIS: 混合信号近传感器卷积成像器

发表时间: 2024年11月11日 单位: 鲁汶天主教大学信息通信技术、电子和应用数学研究所 作者: Martin Lefebvre和David Bol

主要问题:

设计与优化:

关键成果:

未解决问题:

1.6 Hong et al. (2024) - 基于忆阻器交叉开关的并行计算方案

发表时间: 2024年11月22日 单位: 湖南大学计算机科学与电子工程学院 作者: Qinghui Hong等

主要问题:

设计与优化:

关键成果:

未解决问题:

1.7 Wei et al. (2024) - 用于SLAM的低功耗神经群体动力学轨迹滤波器

发表时间: 2024年11月27日 单位: 新加坡南洋理工大学电气与电子工程学院 作者: Zhengzhe Wei等

主要问题:

设计与优化:

关键成果:

未解决问题:

1.8 Shin et al. (2024) - 低功耗3D点云匹配处理器

发表时间: 2024年12月 单位: 韩国蔚山科学技术研究院 作者: Jeongmin Shin等

主要问题:

设计与优化:

关键成果:

未解决问题:

1.9 Chen et al. (2025) - 2024年IEEE国际固态电路会议特刊介绍

发表时间: 2025年1月 单位: 国立阳明交通大学电子与电气工程系 作者: Wei-Zen Chen等

主要问题:

设计与优化:

关键成果:

未解决问题:

1.10 He et al. (2025) - 钙钛矿视网膜形态图像传感器

发表时间: 2025年1月 单位: 上海交通大学电子信息与电气工程学院微纳电子系 作者: Zhilong He等

主要问题:

设计与优化:

关键成果:

未解决问题:

1.11 Lin et al. (2025) - 用于自主移动机器人的运动控制SoC

发表时间: 2025年2月 单位: 台湾国立大学 作者: I-Ting Lin等

主要问题:

设计与优化:

关键成果:

未解决问题: 未明确提及

1.12 Feng et al. (2025) - 可扩展BEV感知处理器

发表时间: 2025年2月26日 单位: 清华大学电子工程系 作者: Xiaoyu Feng等

主要问题:

设计与优化:

关键成果:

未解决问题: 未明确提及,但暗示处理高度稀疏数据和扩展系统以适应更大模型可能需要进一步改进

1.13 Lim et al. (2025) - Hawkeye: 点云神经网络处理器

发表时间: 2025年2月26日 单位: 韩国科学技术院(KAIST)电气工程学院 作者: Sukbin Lim等

主要问题:

设计与优化:

关键成果:

未解决问题: 可能需要进一步优化以处理极大规模环境并提高不同模型和数据集间的可扩展性

2. 国内外研究现状及发展动态分析

近年来,随着自动驾驶、机器人和增强现实等领域的快速发展,图像和点云处理加速器研究取得了显著进展。这些加速器旨在解决高维度、不规则数据处理中的计算复杂性和能效挑战,推动了硬件-算法协同设计方法的快速演进。

从研究主体上看,中国(上海交通大学、清华大学、重庆大学、中南大学等)、韩国(蔚山科技院、KAIST)、台湾(国立阳明交通大学、台湾大学)和欧洲(鲁汶天主教大学、新加坡南洋理工)的研究机构展现出较为均衡的贡献,形成了多中心的研究格局。

技术发展呈现四个明显趋势:1)从单一功能模块向完整系统演进,如Jung等(2024)的LiDAR SLAM处理器和Feng等(2025)的BEV融合加速器;2)从通用计算架构向高度专用架构转变,如Hong等(2024)的忆阻器交叉开关和He等(2025)的钙钛矿视网膜传感器;3)从数字电路向混合信号和模拟计算扩展,如Lefebvre和Bol(2024)的混合信号近传感器处理器;4)从独立优化向数据结构-算法-硬件深度耦合方向发展,如Li等(2024)的SimDiff框架。

这些研究的科学意义主要体现在:1)推动了计算复杂度和功耗墙的突破,使实时3D感知成为可能;2)促进了从云端到边缘的AI计算范式转变;3)发展了新型计算内存融合架构,改变了传统冯·诺依曼架构的局限;4)为特定应用领域(如自动驾驶、机器人导航)提供了高能效解决方案,加速了这些领域的技术突破。

3. 文献调研综合结果

3.1 领域重要里程碑

图像/点云处理加速器领域近年来取得了几项重要里程碑:

首先,在特征提取方面,Hong等(2024)实现了首个基于忆阻器的ORB特征提取加速器,处理速度比传统方法提高22倍。Lefebvre和Bol(2024)提出的MANTIS系统实现了高达84.1 TOPS/W的能效,同时通过混合信号处理大幅减少传输数据量。He等(2025)开发的钙钛矿视网膜形态传感器将特征提取直接集成在传感器阵列上,标志着传感-计算一体化的重要进展。

在点云处理方面,Lian等(2024)和Li等(2024)分别通过优化点变换器架构和利用空间相似性,解决了点云数据依赖性和计算冗余问题。Shin等(2024)提出的C²IM-NN利用CAM实现高效k-NN搜索,能效提升23倍,这在点云配准的核心操作上取得了突破性进展。Fang等(2024)的DSAV框架首次实现体素化3D目标检测的端到端加速,体素化速度提高近20倍。

在SLAM和高级感知方面,Jung等(2024)实现了首个完全集成的语义LiDAR SLAM处理器,Wei等(2024)提出的超低功耗神经群体动力学轨迹滤波器将SLAM轨迹估计功耗降至微瓦级。Feng等(2025)和Lim等(2025)分别从多模态融合和工作负载管理角度优化了BEV感知处理,实现了实时处理能力。Lin等(2025)提出的运动控制SoC将运动控制率提高到千赫兹级别,填补了感知与控制之间的研究空白。

这些里程碑共同构成了从低级特征提取到高级语义理解、从单一传感器处理到多模态融合的完整技术栈,为图像/点云配准建模加速提供了全方位的硬件基础。

3.2 性能、面积和功耗提升趋势

近期研究展现出性能、面积和功耗方面的显著提升趋势:

在性能方面,处理速度提升显著,从Lian等(2024)的2.96倍加速到Fang等(2024)的19.8倍加速不等,平均提升在10倍左右。实时处理能力也从Lian等(2024)的不足18帧/秒提升到Lim等(2025)的44.2帧/秒,超过了自动驾驶通常要求的30帧/秒阈值。精度方面大多保持与软件实现相当的水平,部分研究如Li等(2024)和Lian等(2024)特别强调在提升速度的同时精度损失可忽略。

在面积效率方面,Lin等(2024)报告了66倍的面积效率提升,Feng等(2025)展示了2倍的面积效率提升。多项研究采用28nm工艺,表明该工艺节点已成为边缘AI处理器的主流选择,在性能和成本之间取得了良好平衡。

功耗方面的改进尤为显著。Jung等(2024)实现了99.89%的能耗降低,Shin等(2024)报告了99.51%的功耗减少。能效提升范围从Li等(2024)的3.1倍到Lin等(2025)的350倍不等。Wei等(2024)将功耗降至微瓦级(2.793μW),而Lim等(2025)和Lefebvre&Bol(2024)分别展示了38.5 TOPS/W和84.1 TOPS/W的能效,这些数据远超传统GPU实现(通常<10 TOPS/W)。

这一趋势背后的驱动因素包括专用硬件设计、近源计算架构、创新的电路技术和算法-硬件协同优化。多项研究采用计算内存(CIM)技术,利用模拟计算或混合信号处理,突破了传统数字计算的能效瓶颈。例如,Shin等(2024)的9T1C SRAM位元设计、Lefebvre&Bol(2024)的电荷域MAC和Hong等(2024)的忆阻器交叉开关均展示了非传统计算范式的优势。

3.3 现有方案不足分析

尽管取得了显著进展,现有方案在"数据结构-算法-架构深度耦合优化"方面仍存在几个关键不足:

数据结构层面:大多数研究专注于单一数据表示形式(体素、点云、柱状体等),缺乏数据结构自适应机制。虽然Li等(2024)和Lim等(2025)分别引入了基于八叉树和四叉树的数据组织,但很少有研究探讨数据结构在算法执行过程中的动态演化。多模态融合场景中的统一数据表示仍是挑战,Feng等(2025)的工作只是初步尝试。

算法层面:大多数加速器针对特定算法高度优化,如Fang等(2024)针对体素化3D检测,Lian等(2024)针对点变换器,缺乏算法通用性和可重构性。虽然一些工作如Jung等(2024)集成了多个算法组件,但各组件间协同效率不高。此外,算法稀疏性和数据稀疏性的联合利用仍未充分探索,许多研究仅关注其中一个方面。

架构层面:存在明显的碎片化,不同功能模块(特征提取、点搜索、配准、SLAM等)通常需要不同加速器。端到端系统缺乏统一内存层次和调度策略,导致系统集成困难。虽然Feng等(2025)提出了芯片级并行性,但多芯片系统的互连和协同仍处于初级阶段。异构计算单元(如FPGA、ASIC、混合信号处理器)的高效融合也面临挑战。

深度耦合方面:尽管Li等(2024)的SimDiff等工作尝试算法-硬件协同设计,但真正的三层(数据结构-算法-架构)深度耦合优化仍然缺乏。多数研究在某一层做深度优化,而在其他层采用相对标准的方案。例如,Lian等(2024)深度优化了FPS-kNN架构,但数据结构方面相对传统;Fang等(2024)同时优化了体素表示和卷积计算,但缺乏针对硬件特性的算法自适应机制。

此外,现有研究普遍缺乏系统化的评估方法和统一的基准测试,难以进行公平比较。不同研究使用的性能指标(如帧率、TOPS/W、加速比)各不相同,实验设置也差异很大。很少有研究同时报告性能、能效、面积效率和精度等关键指标,更少有研究在真实应用场景下进行端到端评估。

这些不足突显了本项目研究的必要性与科学意义,特别是在构建统一、自适应的数据结构-算法-架构深度耦合优化框架方面的价值,这不仅可以超越单点优化的局限,也能为未来通用且高效的图像/点云处理加速器建立科学基础。

4. 表格汇总:关键参数对比

文献任务类型算法主要优化策略实现平台
Fang et al., 20243D目标检测统一CONV和TCONV计算方案(UCT)与结构化剪枝基于哈希的分层体素器,基于脉动阵列的骨干网络加速器FPGA实现
Lian et al., 2024点云处理基于分布感知的启发式距离计算集成FPS-kNN架构,减少MaxPool和注意力-kNN层NVIDIA Jetson Orin
Li et al., 2024点云加速相似性感知差分点云神经网络(SD-PCNet)基于八叉树的密度自适应子树选择,并行原位处理带HBM的ASICs
Jung et al., 2024LiDAR SLAM基于点神经网络(PNN)的分割、关键点提取和非线性优化基于球坐标的分箱搜索,两步工作负载平衡,动态内存分配专用处理器(LSPU)
Lefebvre & Bol, 2024特征提取与ROI检测电荷域4位加权MAC操作混合信号处理,增量复位采样,电压下移UMC 0.11μm CMOS
Hong et al., 2024角点检测改进FAST角点检测算法基于忆阻器交叉开关的内存计算PSpice仿真
Wei et al., 2024SLAM轨迹滤波基于神经群体动力学的推理超轻量级数字宏与并行原位处理,时分复用PE设计40nm工艺
Shin et al., 20243D点云匹配带扩张1D-CNN的时空预测基于体素的分区,顶点聚类,基于CAM的计算内存28nm CMOS
Chen et al., 2025多种(综述论文)多种,包括定位求解器、神经图形处理收发器、基于RRAM的推理引擎、电压调节器等硬件创新多种
He et al., 2025视网膜形态视觉一维特征提取(ODFE)算法钙钛矿光探测器阵列与一晶体管结构定制硬件
Lin et al., 2025自主机器人运动控制基于采样的轨迹优化PE阵列,片上网络工作负载平衡28nm CMOS
Feng et al., 2025BEV感知可重构互连拓扑基于CAM的映射单元,芯片级并行,封装上网络28nm CMOS
Lim et al., 2025BEV检测基于四叉树的工作负载管理,符号-幅度表示虚拟柱状体,异构架构与专用核心三星28nm CMOS

5. 技术路线图(Roadmap)

基于对当前研究的分析,未来图像/点云处理加速器研究可能沿以下方向发展:

5.1 数据结构优化方向

5.2 算法轻量化方向

5.3 架构设计方向

5.4 集成与系统方向

随着这些技术路线的发展,图像/点云处理加速器将从当前的单点优化向系统化集成、从特定任务加速向通用高效处理、从静态设计向动态自适应系统转变,最终实现在极低功耗下的实时、高精度3D感知。

6. 参考文献

[1] H. Fang, Y. Tan, A. Ren, W. Zhuang, Y. Hua, Z. Qin, and D. Liu, "DSAV: A Deep Sparse Acceleration Framework for Voxel-Based 3-D Object Detection," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 613-626, Feb. 2025.

[2] Y. Lian, X. Yang, K. Hong, Y. Wang, N. Xu, and G. Dai, "A Point Transformer Accelerator With Distribution-Aware Heuristic Distance Calculation," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 751-764, Feb. 2025.

[3] Y. Li, M. Li, C. Chen, X. Zou, H. Shao, F. Tang, and K. Li, "SimDiff: Point Cloud Acceleration by Utilizing Spatial Similarity and Differential Execution," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 568-581, Feb. 2025.

[4] J. Jung, S. Kim, B. Seo, W. Jang, S. Lee, J. Shin, D. Han, and K. J. Lee, "An Energy-Efficient Processor for Real-Time Semantic LiDAR SLAM in Mobile Robots," IEEE J. Solid-State Circuits, vol. 60, no. 1, pp. 112-124, Jan. 2025.

[5] M. Lefebvre and D. Bol, "MANTIS: A Mixed-Signal Near-Sensor Convolutional Imager SoC Using Charge-Domain 4b-Weighted 5-to-84-TOPS/W MAC Operations for Feature Extraction and Region-of-Interest Detection," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 934-948, Mar. 2025.

[6] Q. Hong, H. Jiang, P. Xiao, S. Du, and T. Li, "A Parallel Computing Scheme Utilizing Memristor Crossbars for Fast Corner Detection and Rotation Invariance in the ORB Algorithm," IEEE Trans. Comput., vol. 74, no. 3, pp. 996-1010, Mar. 2025.

[7] Z. Wei, B. Dong, Y. Su, Y. Wang, C. Yang, Y. Lu, C. Wang, T. T.-H. Kim, and Y. Zheng, "A 2.793 μW Near-Threshold Neuronal Population Dynamics Trajectory Filter for Reliable Simultaneous Localization and Mapping," IEEE Trans. Circuits Syst. I, vol. 72, no. 3, pp. 1269-1281, Mar. 2025.

[8] J. Shin, H. Jeong, S. Kim, S. Lee, and K. J. Lee, "C²IM-NN: A Low-Power 3D Point Clouds Matching Processor With 1D-CNN Prediction and CAM-Based In-Memory k-NN Searching," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 72, no. 3, pp. 1-12, 2025.

[9] W.-Z. Chen, B. H. Calhoun, C.-H. Yang, S. Sen, and J. Yang, "Introduction to the Special Section on the 2024 IEEE International Solid-State Circuits Conference (ISSCC)," IEEE J. Solid-State Circuits, vol. 60, no. 1, pp. 5-8, Jan. 2025.

[10] Z. He et al., "Perovskite retinomorphic image sensor for embodied intelligent vision," Sci. Adv., vol. 11, no. 1, pp. eads2834, Jan. 2025.

[11] I.-T. Lin et al., "A 28-nm 142-mW Motion-Control SoC for Autonomous Mobile Robots," IEEE J. Solid-State Circuits, pp. 1-12, 2025.

[12] X. Feng, X. Lin, H. Yang, Y. Liu, and W. Sun, "A Scalable BEV Perception Processor for Image/Point Cloud Fusion Applications Using CAM-Based Universal Mapping Unit," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 1002-1013, Mar. 2025.

[13] S. Lim, J. Heo, J. Yang, and J.-Y. Kim, "Hawkeye: A Point Cloud Neural Network Processor With Virtual Pillar and Quadtree-Based Workload Management for Real-Time Outdoor BEV Detection," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 990-1001, Mar. 2025.