本调研共涵盖从2007年至2025年间关于图像/点云配准、特征提取、三维重建与加速器芯片设计的数十篇文献。为便于理解,我们按照发表年份从早到晚对文献进行了排序,并对各篇文献的核心内容进行概括说明,主要包括以下几个方面:
2007 – A VLSI Architecture for Image Registration in Real Time
发表单位与作者:ST Microelectronics, India;Computer Sciences Corporation, India – Nisheeth Gupta等
主要问题:传统图像配准算法计算量大,难以实时实现;处理不同尺寸的参考与搜索图像存在难度。
设计与优化:采用并行处理的脉动阵列架构、优化归一化互相关函数和均方误差计算;各处理单元内集成MAC单元以实现并行运算。
成果与遗留问题:实现了实时配准,但在处理极大尺寸图像时效率下降,级联芯片方案成本较高。
2011 – A Programmable Vision Chip Based on Multiple Levels of Parallel Processors
发表单位与作者:中国科学院半导体研究所 – Wancheng Zhang等
主要问题:传统视觉系统I/O负载重、功耗高;固定的像素与处理单元映射限制灵活性。
设计与优化:提出灵活的像素–PE映射,支持多级并行处理;采用专用编译器将多位算法转换为低位处理,实现高速图像处理。
成果:实现了超过1000fps的高速图像捕获与处理,为后续面向实时应用的芯片设计奠定基础。
2012–2014 期间 包括全硬件SIFT加速器(2012)、基于边缘检测的实时视差图计算(2013)、低功耗特征提取加速器(2014)以及动态重构视觉芯片(2014)等工作,这些文献均针对如何降低计算复杂度、优化内存访问和提高能效展开设计。例如,台湾国立清华大学的SIFT硬件加速器实现了VGA图像33毫秒内实时处理,而密歇根大学的低功耗特征提取方案则在470 mV低电压下实现30fps处理,功耗仅数毫瓦。
2015–2018 年 这一时期的工作开始探索神经形态、共形几何代数以及可重构多核并行卷积等新方法,同时出现了针对3D重建、点云处理和边缘IoT设备的能效设计(例如Eyeriss系统、FPGA上实时ICP加速器等)。这些文献通过创新数据结构设计(如层次图、邻居索引表、重排数据流)和硬件-算法协同优化,大幅提升了系统整体能效和实时性,同时也揭示了在扩展性与通用性方面的不足。
2019 年 代表文献包括密歇根大学提出的全视觉CNN-SLAM处理器,解决了高达250 GOPS计算需求与数据依赖性问题;同时另一工作实现了全高清6D视觉处理器,采用邻居引导半全局匹配大幅降低内存带宽需求;此外,MIT的Navion提出了功耗仅2 mW的全集成视觉惯性里程计加速器,实现了20 fps实时VIO。
2020 年 该年文献集中于通过模拟信号处理(ASP-SIFT)、快速k-d树优化(QuickNN)和专用BA加速(π-BA)等手段降低复杂算法的运算负荷;同时,针对点云特征聚合与立体视觉(StereoEngine)的加速设计也取得突破,进一步验证了硬件专用架构在实时性和能效上的优势。
2021 年 工作重点转向更大规模场景下的应用,如实时道路分割(RoadNet-RT)、全高清超分辨率处理、基于FPGA的手势分类及稀疏图神经网络在点云上的应用(Point-X),同时也出现了针对增强现实全息处理(HoloAR)和贝叶斯神经网络的加速器设计。这一阶段的成果不仅在性能上取得显著提升,也为后续多模态、跨任务芯片设计提供了思路。
2022 年 主要文献包括韩国KAIST提出的低功耗图卷积网络处理器,用于移动设备上实现3D点云语义分割;上海科技大学的基于块PatchMatch的立体匹配加速器;中国科学院的SRAM内处理(PIM)加速方案,用于超低功耗3D视觉;以及其他针对事件相机、无人机SoC自动设计、点云压缩、视觉Transformer加速、传感器数据快速访问等方面的创新设计。各工作均通过数据结构重构、算法并行优化、硬件流水线设计等手段,在降低功耗的同时实现了实时性和高吞吐量。
2023 年 则进一步在移动对象分割、可重构SLAM协处理器、基于八叉树的近邻搜索加速、图匹配网络加速、超分辨率与深度完成等领域取得突破。整体上,这一时期的研究强调了算法与硬件深度耦合设计,以及对新型存储与计算架构(如位串行计算、动态调度、SRAM-PIM等)的探索,以满足日益严格的实时性和能效需求。
2024 年 文献重点关注领域专用加速器与SoC设计,如重庆大学提出的DSAV体素化3D目标检测加速框架、上海交通大学的点变换器加速器、以及中南大学的SimDiff点云加速器。此外,韩国蔚山科技院和其他机构提出了实时语义LiDAR SLAM处理器、混合信号图像传感器(MANTIS)、基于忆阻器的并行计算方案以及低功耗3D点云匹配处理器等,这些工作在数据结构、算法与硬件架构深度协同优化上均有创新。
2025 年 最新的工作则进一步拓展了应用范围,涵盖了2024年IEEE国际固态电路会议特刊中关于高速收发器与边缘AI加速器的创新;上海交通大学的钙钛矿视网膜形态图像传感器,实现了超灵敏与可重构的视觉感知;台湾国立大学的运动控制SoC、清华大学的可扩展BEV感知处理器以及韩国KAIST的点云神经网络处理器等,这些成果均展示了在提高计算性能、能效以及系统集成度方面的最新进展,同时也提出了在材料稳定性、系统扩展性与多模态融合等方面的进一步挑战。
近年来,随着自动驾驶、机器人、增强现实及物联网等领域的快速发展,图像与点云处理加速器芯片研究呈现出以下几个主要趋势:
硬件–算法协同设计深化:从早期单一模块的硬件加速到现今全系统级SoC的集成设计,各项工作均强调数据结构优化、并行算法设计与电路级优化的深度融合,从而在保证实时性与高精度的同时大幅降低功耗。
低功耗与高能效要求不断提升:国际上从MIT的Navion、密歇根大学的6D视觉处理器,到近年来多家机构提出的PIM、基于SRAM内处理以及忆阻器加速方案,都着力解决边缘设备在低功耗下实现高性能计算的瓶颈。
面向复杂场景与多模态应用的扩展:新一代加速器不仅关注传统视觉任务,还涵盖了3D点云、语义分割、SLAM、超分辨率及全息处理等多领域应用,进一步推动了技术在实际场景中的应用和系统级集成。
新型材料与架构探索:近期出现的钙钛矿传感器、混合信号近传感器以及基于忆阻器的处理器设计,展示了从材料科学到硬件架构全链条创新的趋势,为未来加速器设计提供了更多可能性。
总体来看,国内外研究机构正致力于构建高性能、低功耗且具有高度集成化的视觉与点云处理平台,同时也在探索如何通过数据结构与算法的深度耦合,进一步突破传统架构的瓶颈。这些进展不仅推动了学术前沿,也为实际应用提供了坚实的技术支持。
通过对2007年至2025年间相关文献的综合调研,我们可以看出:
重要里程碑
从早期的图像配准与SIFT加速器,到后期针对视觉SLAM、点云匹配与三维重建的专用芯片,加速器设计经历了从单功能模块到系统级集成的转变。
代表性工作包括密歇根大学的全视觉CNN-SLAM处理器、MIT的Navion VIO加速器、以及近期针对3D点云语义分割和点云匹配的专用设计,如KAIST的低功耗图卷积处理器和韩国蔚山的3D点云匹配处理器。
性能、面积与功耗的持续提升
通过算法简化、流水线并行、存储层次重构以及新型器件应用,各阶段产品在实时性、能效和面积利用率方面均有显著突破,部分设计的能效甚至提升数十倍。
尤其在低功耗设计上,许多作品已实现毫瓦级功耗下支持高清、实时处理,为边缘设备和无人机等应用提供了关键技术保障。
数据结构—算法—架构深度耦合优化的不足
尽管当前方案在各自领域取得成功,但普遍存在的问题是不同任务间的数据重用不足、硬件资源分配不均以及针对特定场景的适应性有限。这为进一步研究提出了挑战,也凸显了新一代算法硬件协同设计的必要性。
科学意义与应用前景
本领域的发展不仅推动了视觉与点云处理技术在自动驾驶、机器人和增强现实等前沿应用中的落地,也为跨模态数据融合、边缘智能计算以及新材料器件的应用提供了技术支撑。
下表对部分代表性文献进行了关键参数对比:
| 文献(作者+年份) | 任务类型 | 采用的算法 | 主要优化策略(数据结构/硬件架构/电路层次) | 实现平台/流片工艺 |
|---|---|---|---|---|
| Gupta et al. (2007) | 图像配准 | NCCF、MSE优化 | 脉动阵列并行处理、MAC单元集成 | ASIC(定制VLSI) |
| Zhang et al. (2011) | 视觉芯片 | 多级并行处理 | 灵活的像素–PE映射、专用编译器转换 | CMOS工艺 |
| Huang et al. (2012) | SIFT特征提取 | 全硬件SIFT | 流水线架构、段缓冲方案 | FPGA/ASIC |
| Li et al. (2019) | CNN-SLAM | CNN+PnP+BA | 分层内存组织、定点数值实现、贪婪特征匹配剪枝 | ASIC(65nm CMOS) |
| Navion – MIT (2019) | 视觉惯性里程计 | VIO集成算法 | 高效内存层次结构、数据压缩、并行加速 | ASIC |
| ASP-SIFT – Fan et al. (2020) | 关键点检测 | 模拟信号处理SIFT | 模拟域高斯金字塔构建、低功耗电路设计 | 专用模拟芯片 |
| RoadNet-RT – Bai et al. (2021) | 道路分割 | 深度可分离卷积、非均匀核卷积 | 特征图流优化、平衡内存带宽与计算 | FPGA (ZCU102 MPSoC) |
| DSAV – Fang et al. (2024) | 3D目标检测 | CONV与TCONV统一方案 | 哈希分层体素器、结构化剪枝、脉动阵列骨干网络加速器 | 专用SoC |
| 钙钛矿传感器 – He et al. (2025) | 视网膜形态图像传感器 | 即时一维特征提取(ODFE) | 集成钙钛矿光探测器与a-Si TFT、自适应成像 | 单片集成 |
| Hawkeye – Lim et al. (2025) | 点云神经网络处理 | 四叉树ROI跳过、SM位切片表示 | 虚拟柱状体动态生成、2D网格片上网络互连、位切片计算架构 | FPGA/ASIC联合 |
注:若某篇文献未明确提及特定信息,则标注为“未说明”。
未来发展趋势主要体现在以下几个方面:
数据结构优化:设计更高效的动态数据索引(如基于哈希、八叉树、层次图)以适应大规模稀疏数据,进一步降低内存带宽要求。
算法轻量化:采用量化、剪枝、近似计算以及混合模拟-数字计算方法,使深度学习与传统算法在保证精度的前提下大幅降低计算复杂度。
硬件架构创新:通过多核并行、流水线深度定制、计算内存(CIM)以及新型器件(如忆阻器、钙钛矿传感器)引入,实现系统级能效优化与实时性提升。
系统级集成与多模态融合:未来将趋向于整合图像、点云及其他传感器数据,实现多任务协同处理,满足自动驾驶、机器人及AR/VR等复杂应用场景的需求。
边缘智能与安全性:在低功耗设备上实现高精度、实时处理的同时,进一步关注数据安全与可靠性,探索硬件级安全加速方案。
[1] N. Gupta and N. Gupta, “A VLSI Architecture for Image Registration in Real Time,” ST Microelectronics, India; Computer Sciences Corporation, India, 2007.
[2] W. Zhang, Q. Fu, and N.-J. Wu, “A Programmable Vision Chip Based on Multiple Levels of Parallel Processors,” Chinese Academy of Sciences, 2011.
[3] F.-C. Huang, S.-Y. Huang, J.-W. Ker, and Y.-C. Chen, “High-Performance SIFT Hardware Accelerator for Real-Time Image Feature Extraction,” Natl. Tsing Hua Univ., 2012.
[4] C. Ttofis, S. Hadjitheophanous, A. S. Georghiades, and T. Theocharides, “Edge-Directed Hardware Architecture for Real-Time Disparity Map Computation,” Univ. of Cyprus, 2013.
[5] D. Jeon et al., “An Energy Efficient Full-Frame Feature Extraction Accelerator With Shift-Latch FIFO in 28 nm CMOS,” Univ. of Michigan, 2014.
[6] C. Shi et al., “A 1000 fps Vision Chip Based on a Dynamically Reconfigurable Hybrid Architecture Comprising a PE Array Processor and Self-Organizing Map Neural Network,” Chinese Academy of Sciences, 2014.
[7] Q. Gautier et al., “Real-time 3D Reconstruction for FPGAs: A Case Study for Evaluating the Performance, Area, and Programmability Trade-offs of the Altera OpenCL SDK,” UC San Diego, 2014.
[8] S. Franchini et al., “ConformalALU: A Conformal Geometric Algebra Coprocessor for Medical Image Processing,” Univ. of Palermo, 2015.
[9] P. Knag, J. K. Kim, T. Chen, and Z. Zhang, “A Sparse Coding Neural Network ASIC With On-Chip Learning for Feature Extraction and Encoding,” Univ. of Michigan, 2015.
[10] I. Hong et al., “A 27 mW Reconfigurable Marker-Less Logarithmic Camera Pose Estimation Engine for Mobile Augmented Reality Processor,” KAIST, 2015.
[11] Y.-H. Chen, T. Krishna, J. S. Emer, and V. Sze, “Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks,” MIT, 2017.
[12] Z. Li et al., “A 1920×1080 30fps 2.3TOPS/W Stereo-Depth Processor for Robust Autonomous Navigation,” Univ. of Michigan, 2017.
[13] W. Shi et al., “An FPGA-Based Hardware Accelerator for Traffic Sign Detection,” Carnegie Mellon Univ., 2017.
[14] V. De et al., “Intelligent Energy-Efficient Systems at the Edge of IoT,” Intel, Oregon, 2018.
[15] Q. Zhou, L. Yang, and X. Yan, “Reconfigurable Instruction-Based Multicore Parallel Convolution and Its Application in Real-Time Template Matching,” China Aerospace, 2018.
[16] Li, Z. et al., “An 879GOPS 243mW 80fps VGA Fully Visual CNN-SLAM Processor for Wide-Range Autonomous Exploration,” Univ. of Michigan, 2019.
[17] Li, Z. et al., “A 1920×1080 25-Frames/s 2.4-TOPS/W Low-Power 6-D Vision Processor,” Univ. of Michigan, 2019.
[18] “Navion: A 2mW Fully Integrated Real-Time Visual-Inertial Odometry Accelerator,” MIT, 2019.
[19] Tigris, “Architecture and Algorithms for 3D Perception in Point Clouds,” Univ. of Rochester, 2019.
[20] Z. Fan et al., “ASP-SIFT: Using Analog Signal Processing Architecture to Accelerate Keypoint Detection,” Tsinghua Univ., 2020.
[21] R. Pinkham et al., “QuickNN: Memory and Performance Optimization of k-d Tree Based Nearest Neighbor Search,” Univ. of Michigan, 2020.
[22] R. Sun et al., “A Flexible and Efficient Real-Time ORB-Based Full-HD Image Feature Extraction Accelerator,” Shanghai Jiao Tong Univ., 2020.
[23] Q. Liu et al., “π-BA: Bundle Adjustment Hardware Accelerator Based on Distribution of 3D-Point Observations,” Tianjin Univ., 2020.
[24] Y. Feng et al., “Mesorasi: Architecture Support for Point Cloud Analytics via Delayed-Aggregation,” Univ. of Rochester, 2020.
[25] G. Chen et al., “StereoEngine: An FPGA-Based Accelerator for Real-Time High-Quality Stereo Estimation,” Sun Yat-sen Univ., 2020.
[26] L. Bai et al., “RoadNet-RT: High Throughput CNN Architecture and SoC Design for Real-Time Road Segmentation,” Worcester Polytechnic Inst., 2021.
[27] H. Shen et al., “A 91mW 90fps Super-Resolution Processor for Full HD Images,” Natl. Taiwan Univ., 2021.
[28] A. Kosuge et al., “An SoC-FPGA-Based Iterative-Closest-Point Accelerator Enabling Faster Picking Robots,” Hitachi R&D, 2021.
[29] Y. Lin et al., “PointAcc: Efficient Point Cloud Accelerator,” MIT, 2021.
[30] F. Min et al., “Dadu-Eye: A 5.3 TOPS/W, 30 fps/1080p High Accuracy Stereo Vision Accelerator,” Chinese Acad. of Sciences, 2021.
[31] C. Wang et al., “Real-Time Block-Based Embedded CNN for Gesture Classification on an FPGA,” Natl. Tsing Hua Univ., 2021.
[32] S. Zhao et al., “HoloAR: On-the-fly Optimization of 3D Holographic Processing for Augmented Reality,” Penn State Univ., 2021.
[33] J. Zhang et al., “Point-X: A Spatial-Locality-Aware Architecture for Energy-Efficient Graph-Based Point-Cloud Deep Learning,” Univ. of Michigan, 2021.
[34] H. Fan et al., “High-Performance FPGA-based Accelerator for Bayesian Neural Networks,” Imperial Coll. London, 2021.
[35] S. Kim et al., “A Low-Power Graph Convolutional Network Processor With Sparse Grouping for 3D Point Cloud Semantic Segmentation in Mobile Devices,” KAIST, 2022.
[36] H. Wang et al., “A Block PatchMatch-Based Energy-Resource Efficient Stereo Matching Processor on FPGA,” Shanghai Univ. of Sci. & Technol., 2022.
[37] Y. He et al., “Processing-in-SRAM Acceleration for Ultra-Low Power Visual 3D Perception,” Chinese Acad. of Sciences, 2022.
[38] M. Li et al., “Eventor: An Efficient Event-Based Monocular Multi-View Stereo Accelerator on FPGA Platform,” Beihang Univ., 2022.
[39] S. Krishnan et al., “Automatic Domain-Specific SoC Design for Autonomous Unmanned Aerial Vehicles,” Harvard Univ., 2022.
[40] Z. Ying et al., “Pushing Point Cloud Compression to the Edge,” Penn State Univ., 2022.
[41] T. Wang et al., “ViA: A Novel Vision-Transformer Accelerator Based on FPGA,” Univ. of Science and Technology of China, 2022.
[42] R. Zheng et al., “SENTunnel: Fast Path for Sensor Data Access on Automotive Embedded Systems,” Chongqing Univ., 2022.
[43] C.-T. Chiu et al., “Chaos LiDAR Based RGB-D Face Classification System With Embedded CNN Accelerator on FPGAs,” Natl. Tsing Hua Univ., 2022.
[44] Y. Liu et al., “MobileSP: An FPGA-Based Real-Time Keypoint Extraction Hardware Accelerator for Mobile VSLAM,” Univ. of Electronic Science and Technology of China, 2022.
[45] B. Liu et al., “An Energy-Efficient SIFT Based Feature Extraction Accelerator for High Frame-Rate Video Applications,” Huazhong Univ. of Sci. and Technol., 2022.
[46] Z. He et al., “EmPointMovSeg: Sparse Tensor-Based Moving-Object Segmentation in 3-D LiDAR Point Clouds for Autonomous Driving-Embedded System,” HKUST, 2023.
[47] Y. Tan et al., “A Reconfigurable Coprocessor for Simultaneous Localization and Mapping Algorithms in FPGA,” Southern Univ. of Sci. and Technol., 2023.
[48] F. Chen et al., “ParallelNN: A Parallel Octree-based Nearest Neighbor Search Accelerator for 3D Point Clouds,” Shanghai Jiao Tong Univ., 2023.
[49] (续) “CEGMA: Coordinated Elastic Graph Matching Acceleration for Graph Matching Networks,” 2023.
[50] H.-Y. Shen et al., “A 40-nm 91-mW, 90-fps Learning-Based Full HD Super-Resolution Accelerator,” Natl. Taiwan Univ., 2023.
[51] M. Sun et al., “A 40nm 2TOPS/W Depth-Completion Neural Network Accelerator SoC With Efficient Depth Engine for Realtime LiDAR Systems,” Fudan Univ., 2023.
[52] L. Chang et al., “HDSuper: Algorithm-Hardware Co-design for Light-weight High-quality Super-Resolution Accelerator,” Univ. of Electronic Science and Technology of China, 2023.
[53] H. Fang et al., “DSAV: 体素化3D目标检测加速框架,” Chongqing Univ. Comput. Sci. Coll., 2024.
[54] Y. Lian et al., “点变换器加速器,” Shanghai Jiao Tong Univ. Electr. Info. & Elec. Eng., 2024.
[55] Y. Li et al., “SimDiff: 利用空间相似性的点云加速,” Central South Univ. Comput. Sci. & Eng., 2024.
[56] J. Jung et al., “实时语义LiDAR SLAM能效处理器,” Ulsan Natl. Institute of Sci. & Technol., 2024.
[57] M. Lefebvre and D. Bol, “MANTIS: 混合信号近传感器卷积成像器,” KU Leuven, 2024.
[58] Q. Hong et al., “基于忆阻器交叉开关的并行计算方案,” Hunan Univ., 2024.
[59] Z. Wei et al., “用于SLAM的低功耗神经群体动力学轨迹滤波器,” Nanyang Technol. Univ., 2024.
[60] J. Shin et al., “低功耗3D点云匹配处理器,” Ulsan Natl. Institute of Sci. & Technol., 2024.
[61] W.-Z. Chen et al., “2024年IEEE国际固态电路会议特刊介绍,” Natl. Yang Ming Chiao Tung Univ., 2025.
[62] Z. He et al., “钙钛矿视网膜形态图像传感器,” Shanghai Jiao Tong Univ. Electr. Info. & Elec. Eng. Micro-Nano Elec. Div., 2025.
[63] I.-T. Lin et al., “用于自主移动机器人的运动控制SoC,” Natl. Taiwan Univ., 2025.
[64] X. Feng et al., “可扩展BEV感知处理器,” Tsinghua Univ. Electr. Eng., 2025.
[65] S. Lim et al., “Hawkeye: 点云神经网络处理器,” KAIST, 2025.
[66] L. Huang et al., “Invited: Algorithm and Hardware Co-Design for Energy-Efficient Neural SLAM,” Rutgers Univ., 2024 (引用于2025综述).
[67] (其他文献略)