• 图像/点云配准建模加速芯片研究现状调研报告

    1. 按时间顺序的文献分析

    2007-2018年研究成果

    1.1 Gupta & Gupta (2007) - VLSI架构图像配准

    1.2 Zhang et al. (2011) - 多级并行处理器视觉芯片

    1.3 Huang et al. (2012) - SIFT硬件加速器

    1.4 Jeon et al. (2014) - 能效高的特征提取加速器

    1.5 Shi et al. (2014) - 可重构混合架构视觉芯片

    1.6 Gautier et al. (2014) - 3D重建FPGA加速

    1.7 Chen et al. (2017) - Eyeriss: CNN加速器

    1.8 Li et al. (2017) - 立体深度处理器

    2019-2021年研究成果

    1.9 Li et al. (2019) - CNN-SLAM处理器

    1.10 Suleiman et al. (2019) - 微型无人机VIO加速器

    1.11 Xu et al. (2019) - 点云3D感知加速器

    1.12 Fan et al. (2020) - 模拟信号SIFT加速

    1.13 Pinkham et al. (2020) - 点云近邻搜索优化

    1.14 Liu et al. (2020) - 捆绑调整硬件加速器

    1.15 Feng et al. (2020) - 点云分析加速

    1.16 Chen et al. (2020) - 立体视觉FPGA加速器

    2022-2023年研究成果

    1.17 Kim et al. (2022) - 移动设备GCN处理器

    1.18 Wang et al. (2022) - 立体匹配FPGA处理器

    1.19 He et al. (2022) - SRAM内处理加速

    1.20 Li et al. (2022) - 事件相机MVS加速器

    1.21 Zheng et al. (2022) - 传感器数据访问优化

    1.22 Liu et al. (2022) - SIFT特征提取加速器

    1.23 Tan et al. (2023) - SLAM算法FPGA协处理器

    1.24 Chen et al. (2023) - KNN搜索加速器

    1.25 Min et al. (2023) - 立体视觉加速器

    1.26 Chang et al. (2023) - 超分辨率加速器

    1.27 Lyu et al. (2023) - 点云特征学习加速器

    1.28 Han et al. (2023) - 最远点采样加速器

    2024-2025年研究成果

    1.29 Fang et al. (2024) - 体素化3D目标检测加速

    1.30 Lian et al. (2024) - 点变换器加速器

    1.31 Li et al. (2024) - 空间相似性点云加速

    1.32 Jung et al. (2024) - 语义LiDAR SLAM处理器

    1.33 Lefebvre & Bol (2024) - 混合信号近传感器处理器

    1.34 Hong et al. (2024) - 忆阻器交叉开关计算

    1.35 Wei et al. (2024) - 神经群体动力学轨迹滤波器

    1.36 Shin et al. (2024) - 低功耗点云匹配处理器

    1.37 He et al. (2025) - 钙钛矿视网膜传感器

    1.38 Lin et al. (2025) - 自主机器人运动控制SoC

    1.39 Feng et al. (2025) - 可扩展BEV感知处理器

    1.40 Lim et al. (2025) - 点云神经网络处理器

    2. 国内外研究现状及发展动态分析

    图像/点云配准建模加速芯片研究领域经历了从单一功能到系统集成、从通用计算到专用架构的演变过程。过去十多年间,该领域呈现出明显的多中心发展格局,主要研究力量分布在美国(MIT、密歇根大学、罗切斯特大学)、中国(中科院、上海交通大学、清华大学、北航)、韩国(KAIST、蔚山科技院)和台湾地区(国立清华大学、台湾大学)。

    研究重点经历了几个阶段的演变:早期(2007-2014)主要关注基础图像处理加速器,如Gupta(2007)的图像配准VLSI架构和Huang(2012)的SIFT硬件加速器;中期(2015-2020)开始探索点云处理和神经网络加速,如Chen(2017)的Eyeriss和Xu(2019)的Tigris;近期(2021-2025)则深入研究端到端系统和新型计算架构,如Jung(2024)的语义LiDAR SLAM处理器和Feng(2025)的BEV融合加速器。

    技术上呈现四个明显趋势:1)从单一功能模块向完整系统演进;2)从通用架构向高度专用架构转变;3)从数字电路向混合信号和模拟计算扩展;4)从独立优化向算法-硬件深度耦合发展。特别是近两年,多模态感知融合、神经形态计算和近传感器处理成为研究热点。

    这些研究的科学意义在于:1)推动了计算复杂度和功耗墙的突破,使实时3D感知成为可能;2)促进了从云端到边缘的AI计算范式转变;3)发展了新型计算内存融合架构,挑战传统冯·诺依曼架构;4)为自动驾驶、机器人导航等应用提供了高能效解决方案,加速了这些领域的技术突破。中国研究团队在视觉SLAM加速、忆阻器计算和点云特征提取方面做出了独特贡献,显示出强劲的研究实力和创新能力。

    3. 文献调研综合结果

    3.1 领域重要里程碑

    在图像/点云配准建模加速芯片领域,过去十多年出现了一系列重要里程碑:

    图像特征提取加速方面,从Huang等(2012)的SIFT硬件加速器(33ms处理时间)到Fan等(2020)的ASP-SIFT(2.3kframes/s)和Hong等(2024)的忆阻器ORB加速器(比传统方法快22倍),处理速度提升了近两个数量级。Jeon等(2014)将特征提取功耗降至2.7mW,为资源受限设备应用奠定基础。He等(2025)的钙钛矿视网膜形态传感器将特征提取直接集成在传感器阵列上,标志着传感-计算一体化的重要进展。

    点云处理领域,Xu等(2019)的Tigris架构首次为KD树搜索提供高效硬件加速(比GPU快77.2倍)。Chen等(2023)的ParallelNN通过并行八叉树构建实现近邻搜索加速(比CPU快107.7倍)。Han等(2023)的QuickFPS针对最远点采样优化,相比GPU加速43.4倍。Li等(2024)的SimDiff利用空间相似性减少计算冗余,平均实现3.2倍加速和3.1倍能效。Lian等(2024)和Shin等(2024)分别解决了点变换器架构和点云匹配中的效率问题。

    立体视觉与深度估计从Li等(2017)的立体深度处理器(1080p@30fps)到Chen等(2020)的StereoEngine(比GPU快50倍)再到Min等(2023)的Dadu-Eye(5.3TOPS/W),实现了从高分辨率到高能效的全面进步。Wang等(2022)的PatchMatch立体匹配处理器达到165.7FPS的峰值性能,成为该领域的新标杆。

    SLAM与导航加速方面,Suleiman等(2019)的Navion(2mW)和Li等(2019)的CNN-SLAM处理器开创了微型设备上的实时SLAM。Tan等(2023)的SLAM协处理器和Wei等(2024)的神经群体动力学轨迹滤波器(功耗<10μW)分别从可重构架构和超低功耗方向优化SLAM加速。Jung等(2024)实现了首个完全集成的语义LiDAR SLAM处理器,处理时间仅20.7毫秒/帧。Lin等(2025)的运动控制SoC将控制率提高到千赫兹级别,填补了感知与控制间的研究空白。

    3D目标检测与BEV感知成为近年研究热点。Fang等(2024)首次实现体素化3D目标检测的端到端加速,体素化速度提高近20倍。Feng等(2025)和Lim等(2025)从多模态融合和工作负载管理角度优化BEV感知,实现了实时处理能力。

    新型计算架构不断涌现,从早期的PE阵列(Gupta, 2007)到近期的混合信号处理(Lefebvre & Bol, 2024)、忆阻器计算(Hong, 2024)、基于CAM的计算内存(Shin, 2024)和片上集成视网膜形态传感器(He, 2025),计算范式正经历从数字向混合计算的变革,从而突破传统架构的性能和能效瓶颈。

    这些里程碑共同构建了从单点算法加速到端到端系统、从高性能到低功耗、从单一模态到多模态融合的技术演进路径,推动了整个领域的快速发展。

    3.2 性能、面积和功耗提升趋势

    在性能方面,加速比从早期的几倍提升到现在的数十倍甚至上百倍。如Huang(2012)的SIFT加速器比CPU提速数倍,而Lyu(2023)的FLNA实现了69.9-264.4倍加速比。处理速度也有显著提升,从Li(2017)的30fps提升到Wang(2022)的165.7FPS和Fan(2020)的2.3kframes/s。近年研究更关注实时性能,如Jung(2024)将语义SLAM处理时间控制在20.7毫秒内,Lim(2025)实现44.2FPS的BEV检测。精度方面,大多数研究保持与软件实现相当的水平,如Li(2024)和Lian(2024)特别强调加速的同时精度损失可忽略。

    面积效率持续优化,Lin(2025)报告了66倍的面积效率提升,Feng(2025)实现了2倍的面积效率改善。28nm工艺成为边缘AI处理器的主流选择,Shin(2024)、Jung(2024)、Feng(2025)和Lim(2025)均采用此工艺节点。随着算法-硬件协同设计的深入,计算单元设计更加高效,如Chang(2023)的统一计算核心和Lim(2025)的异构架构显著减少了硬件资源需求。

    功耗优化成果最为显著。Jeon(2014)将特征提取功耗降至2.7mW,Suleiman(2019)将VIO加速器功耗控制在2mW。Jung(2024)和Shin(2024)分别报告了99.89%和99.51%的能耗降低。能效提升范围从Li(2024)的3.1倍到Lin(2025)的350倍不等。Wei(2024)将功耗降至微瓦级(2.793μW),Lefebvre&Bol(2024)和Lim(2025)分别展示了84.1TOPS/W和38.5TOPS/W的能效,远超传统GPU实现(通常<10TOPS/W)。

    这些进步得益于多种优化策略的综合应用:1)近源计算架构,如He(2022)的SRAM-PIM和Hong(2024)的忆阻器计算;2)混合信号处理,如Lefebvre&Bol(2024)的电荷域MAC;3)稀疏性利用,如Shin(2024)的稀疏感知内存寻址和Lim(2025)的符号-幅度表示;4)数据流优化,如Li(2024)的相似性感知差分执行和Lyu(2023)的数据流解耦;5)电路创新,如9T1C SRAM位元设计和PVT校准技术。

    3.3 现有方案不足分析

    尽管取得了显著进展,现有方案在"数据结构-算法-架构深度耦合优化"方面仍存在明显不足:

    数据结构层面:多数研究采用针对特定应用的数据结构,如Fang(2024)的哈希体素器、Li(2024)的八叉树和Lim(2025)的虚拟柱状体,缺乏通用、自适应的数据表示方法。虽然Chen(2023)和Shin(2024)等工作尝试优化索引结构,但大多数研究未考虑数据结构在算法执行过程中的动态调整,无法适应数据分布变化。此外,多模态数据融合场景下的统一表示仍是挑战,Feng(2025)的工作仅是初步尝试。

    算法层面:大多数加速器针对单一算法高度优化,如Lian(2024)针对点变换器,Hong(2024)针对FAST角点检测,缺乏算法通用性和可重构性。虽然Jung(2024)和Feng(2025)等研究集成了多个算法模块,但各模块间协同效率不高,数据共享有限。算法稀疏性和数据稀疏性的联合利用仍不充分,许多研究如Fang(2024)和Lim(2025)仅关注一个方面。此外,算法对硬件特性的感知和自适应能力不足,难以根据平台动态调整计算精度和资源分配。

    架构层面:存在明显的碎片化,不同功能模块通常需要不同加速器,难以形成统一系统。端到端系统如Jung(2024)的LSPU和Feng(2025)的BEV处理器仍缺乏统一内存层次和调度策略。虽然Feng(2025)提出了芯片级并行性,但多芯片系统的互连和协同仍处于初级阶段。异构计算单元(如FPGA、ASIC、模拟处理器)的高效融合也面临挑战,如何在保持灵活性的同时实现高性能和低功耗是未解决问题。

    深度耦合不足:尽管Li(2024)和Lian(2024)等工作尝试算法-硬件协同设计,但真正的三层(数据结构-算法-架构)深度耦合优化仍很少见。多数研究在某一层做深度优化,而在其他层采用相对标准的方案。例如,Wei(2024)深度优化了轨迹滤波算法,但数据结构相对传统;Hong(2024)专注于忆阻器计算架构,但算法适应性有限。此外,缺乏系统化的反馈优化机制,难以根据运行时状态动态调整各层次的配置。

    评估方法不统一:不同研究使用的性能指标和测试环境差异大,难以进行公平比较。很少有研究同时报告性能、能效、面积效率和精度等关键指标,更少有研究在真实应用场景下进行端到端评估。这限制了对不同方案优劣的客观评价,也阻碍了最佳实践的总结和推广。

    这些不足突显了构建统一、自适应的数据结构-算法-架构深度耦合优化框架的必要性。该框架应支持多样化数据表示与算法的动态适应,提供跨层次的优化反馈机制,实现真正的端到端系统级优化。这不仅可以超越单点优化的局限,也能为未来通用且高效的图像/点云处理加速器奠定科学基础。

    4. 关键参数对比表格

    文献任务类型采用的算法主要优化策略实现平台
    Gupta & Gupta (2007)图像配准NCCF, MSE, BST脉动阵列架构,256窗口处理器并行计算VLSI
    Zhang et al. (2011)通用视觉处理多级图像处理算法灵活像素-PE映射,多级并行处理0.18μm CMOS
    Huang et al. (2012)特征提取SIFT段缓冲方案,三级流水线架构未说明
    Jeon et al. (2014)特征提取优化SURF圆形采样区域,匹配吞吐量架构,低功耗FIFO28nm LP CMOS
    Shi et al. (2014)通用视觉处理SOM神经网络+LVQ动态可重构PE阵列与SOM网络结合0.18μm CMOS
    Gautier et al. (2014)3D重建ICP, 体积集成内存访问优化,循环展开,内核专用化Altera Stratix V FPGA
    Chen et al. (2017)CNN加速CNN行静态数据流,四级内存层次,零压缩技术未说明
    Li et al. (2017)立体深度处理SGM块处理,依赖解析对角扫描,超宽自定义SRAM40nm GP CMOS
    Li et al. (2019)SLAM加速CNN特征提取+BA优化分层内存组织,基于时间预测的特征匹配剪枝28nm HPC CMOS
    Suleiman et al. (2019)视觉惯性里程计关键帧VIO数据压缩,固定和动态稀疏性利用65nm CMOS
    Xu et al. (2019)点云配准两阶段KD树近似KD树搜索,并行化处理元素未说明
    Fan et al. (2020)图像特征提取模拟SIFT亚阈值电流模式电路,算法-硬件协同设计SMIC 180nm CMOS
    Pinkham et al. (2020)近邻点搜索近似k-d树搜索树节点/点桶分区,写读高速缓存FPGA
    Liu et al. (2020)捆绑调整Levenberg-Marquardt共观测优化,硬件友好微分方法嵌入式FPGA SoC
    Feng et al. (2020)点云分析延迟聚合邻居索引表,点特征表,DNN加速器扩展移动GPU/定制硬件
    Chen et al. (2020)立体视觉深度估计BNN-StereoBit二值神经网络,卷积核重用,网络剪枝FPGA
    Kim et al. (2022)3D点云语义分割稀疏分组膨胀图卷积(SG-DGC)两级流水线,点级模块级融合,中心点特征重用65nm CMOS
    Wang et al. (2022)立体匹配块级PatchMatch稀疏Census特征,随机搜索策略FPGA (350MHz)
    He et al. (2022)视觉里程计边缘基于视觉里程计(EBVO)PIM友好数据布局,位并行SRAM-PIM架构90nm CMOS
    Li et al. (2022)事件相机多视图立体EMVS算法硬件协同设计,高度并行化处理Zynq FPGA
    Zheng et al. (2022)传感器数据访问硬件协议解析和预处理统一访问模块,预处理器模块,轻量级驱动FPGA
    Liu et al. (2022)SIFT特征提取优化SIFT快慢双时钟域设计,部分和重用,动态填充180nm CMOS
    Tan et al. (2023)SLAM姿态估计四元数,李代数优化可重构架构,内存重用策略,并行计算核心Zynq 7020 FPGA
    Chen et al. (2023)最近邻搜索并行八叉树构建轨迹编码和深度信息优化,多通道HBMVirtex HBM FPGA
    Min et al. (2023)立体视觉DNN+光流融合层调度,池化/反卷积融合SMIC 40nm CMOS
    Chang et al. (2023)超分辨率轻量级深度可分离卷积统一计算核心,高效F-A映射策略FPGA
    Lyu et al. (2023)点云特征学习数据流解耦并行体系结构,分块处理,转置SRAM40nm CMOS
    Han et al. (2023)最远点采样基于桶的FPS两级树数据结构,合并计算,4阶段流水线28nm CMOS
    Fang et al. (2024)3D目标检测统一CONV和TCONV,结构化剪枝基于哈希的分层体素器,脉动阵列骨干网络加速器FPGA
    Lian et al. (2024)点云处理基于分布感知的启发式距离计算集成FPS-kNN架构,减少MaxPool和注意力-kNN层NVIDIA Jetson Orin
    Li et al. (2024)点云加速相似性感知差分点云神经网络(SD-PCNet)基于八叉树的密度自适应子树选择,并行原位处理带HBM的ASICs
    Jung et al. (2024)LiDAR SLAM基于点神经网络(PNN)基于球坐标的分箱搜索,两步工作负载平衡28nm CMOS
    Lefebvre & Bol (2024)特征提取与ROI检测电荷域4位加权MAC混合信号处理,增量复位采样,电压下移UMC 0.11μm CMOS
    Hong et al. (2024)角点检测改进FAST角点检测基于忆阻器交叉开关的内存计算PSpice仿真
    Wei et al. (2024)SLAM轨迹滤波神经群体动力学推理超轻量级数字宏,并行原位处理40nm CMOS
    Shin et al. (2024)3D点云匹配时空预测,扩张1D-CNN基于体素的分区,顶点聚类,基于CAM的计算内存28nm CMOS
    He et al. (2025)视网膜形态视觉一维特征提取(ODFE)钙钛矿光探测器阵列与一晶体管结构定制硬件
    Lin et al. (2025)自主机器人运动控制基于采样的轨迹优化PE阵列,片上网络工作负载平衡28nm CMOS
    Feng et al. (2025)BEV感知可重构互连拓扑,灵活调度基于CAM的映射单元,芯片级并行28nm CMOS
    Lim et al. (2025)BEV检测基于四叉树的工作负载管理,符号-幅度表示虚拟柱状体,异构架构与专用核心三星28nm CMOS

    5. 技术路线图与趋势预测

    基于对当前研究的分析,未来图像/点云处理加速器研究可能沿以下方向发展:

    5.1 数据结构优化方向

    5.2 算法轻量化方向

    5.3 架构设计方向

    5.4 集成与系统方向

    5.5 应用领域拓展

    随着这些技术路线的发展,图像/点云处理加速器将从当前的单点优化向系统化集成、从特定任务加速向通用高效处理、从静态设计向动态自适应系统转变,最终实现在极低功耗下的实时、高精度3D感知,为自动驾驶、机器人和AR/VR等新兴领域提供关键技术支撑。

    6. 参考文献

    [1] N. Gupta and N. Gupta, "A VLSI Architecture for Image Registration in Real Time," IEEE Trans. Very Large Scale Integr. (VLSI) Syst., vol. 15, no. 9, pp. 981-989, 2007.

    [2] W. Zhang, Q. Fu, and N.-J. Wu, "A Programmable Vision Chip Based on Multiple Levels of Parallel Processors," IEEE J. Solid-State Circuits, vol. 46, no. 9, pp. 2132-2147, 2011.

    [3] F.-C. Huang, S.-Y. Huang, J.-W. Ker, and Y.-C. Chen, "High-Performance SIFT Hardware Accelerator for Real-Time Image Feature Extraction," IEEE Trans. Circuits Syst. Video Technol., vol. 22, no. 3, pp. 340-351, 2012.

    [4] D. Jeon et al., "An Energy Efficient Full-Frame Feature Extraction Accelerator With Shift-Latch FIFO in 28 nm CMOS," IEEE J. Solid-State Circuits, vol. 49, no. 5, pp. 1271-1284, 2014.

    [5] C. Shi et al., "A 1000 fps Vision Chip Based on a Dynamically Reconfigurable Hybrid Architecture Comprising a PE Array Processor and Self-Organizing Map Neural Network," IEEE J. Solid-State Circuits, vol. 49, no. 9, pp. 2067-2082, 2014.

    [6] Q. Gautier et al., "Real-time 3D Reconstruction for FPGAs: A Case Study for Evaluating the Performance, Area, and Programmability Trade-offs of the Altera OpenCL SDK," in Proc. IEEE Int. Conf. Field-Program. Technol. (FPT), 2014, pp. 326-329.

    [7] Y.-H. Chen, T. Krishna, J. S. Emer, and V. Sze, "Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks," IEEE J. Solid-State Circuits, vol. 52, no. 1, pp. 127-138, 2017.

    [8] Z. Li et al., "A 1920×1080 30fps 2.3TOPS/W Stereo-Depth Processor for Robust Autonomous Navigation," in IEEE Int. Solid-State Circuits Conf. (ISSCC), 2017, pp. 62-63.

    [9] Z. Li et al., "An 879GOPS 243mW 80fps VGA Fully Visual CNN-SLAM Processor for Wide-Range Autonomous Exploration," in IEEE Int. Solid-State Circuits Conf. (ISSCC), 2019, pp. 134-136.

    [10] A. Suleiman, Z. Zhang, L. Carlone, S. Karaman, and V. Sze, "Navion: A 2-mW Fully Integrated Real-Time Visual-Inertial Odometry Accelerator for Autonomous Navigation of Nano Drones," IEEE J. Solid-State Circuits, vol. 54, no. 4, pp. 1106-1119, 2019.

    [11] T. Xu, B. Tian, and Y. Zhu, "Tigris: Architecture and Algorithms for 3D Perception in Point Clouds," in Proc. Int. Symp. Microarchitecture (MICRO), 2019, pp. 629-642.

    [12] Z. Fan et al., "ASP-SIFT: Using Analog Signal Processing Architecture to Accelerate Keypoint Detection of SIFT Algorithm," IEEE Trans. Very Large Scale Integr. (VLSI) Syst., vol. 28, no. 1, pp. 198-211, 2020.

    [13] R. Pinkham, S. Zeng, and Z. Zhang, "QuickNN: Memory and Performance Optimization of k-d Tree Based Nearest Neighbor Search for 3D Point Clouds," in IEEE Int. Symp. High Perform. Comput. Archit. (HPCA), 2020, pp. 180-192.

    [14] Q. Liu, S. Qin, B. Yu, J. Tang, and S. Liu, "π-BA: Bundle Adjustment Hardware Accelerator Based on Distribution of 3D-Point Observations," IEEE Trans. Comput., vol. 69, no. 7, pp. 1083-1095, 2020.

    [15] Y. Feng, B. Tian, T. Xu, P. Whatmough, and Y. Zhu, "Mesorasi: Architecture Support for Point Cloud Analytics via Delayed-Aggregation," in Proc. Int. Symp. Microarchitecture (MICRO), 2020, pp. 1037-1050.

    [16] G. Chen et al., "StereoEngine: An FPGA-Based Accelerator for Real-Time High-Quality Stereo Estimation With Binary Neural Network," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 39, no. 11, pp. 4179-4190, 2020.

    [17] S. Kim, S. Kim, J. Lee, and H.-J. Yoo, "A Low-Power Graph Convolutional Network Processor With Sparse Grouping for 3D Point Cloud Semantic Segmentation in Mobile Devices," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 69, no. 4, pp. 1507-1518, 2022.

    [18] H. Wang, W. Zhou, X. Zhang, and X. Lou, "A Block PatchMatch-Based Energy-Resource Efficient Stereo Matching Processor on FPGA," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 69, no. 7, pp. 2893-2905, 2022.

    [19] Y. He, S. Qu, G. Lin, C. Liu, L. Zhang, and Y. Wang, "Processing-in-SRAM acceleration for ultra-low power visual 3D perception," in Proc. Des. Autom. Conf. (DAC), 2022, pp. 295-300.

    [20] M. Li et al., "Eventor: an efficient event-based monocular multi-view stereo accelerator on FPGA platform," in Proc. Des. Autom. Conf. (DAC), 2022, pp. 331-336.

    [21] R. Zheng et al., "SENTunnel: Fast Path for Sensor Data Access on Automotive Embedded Systems," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 41, no. 11, pp. 3697-3708, 2022.

    [22] B. Liu et al., "An Energy-Efficient SIFT Based Feature Extraction Accelerator for High Frame-Rate Video Applications," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 69, no. 12, pp. 4930-4943, 2022.

    [23] Y. Tan et al., "A Reconfigurable Coprocessor for Simultaneous Localization and Mapping Algorithms in FPGA," IEEE Trans. Circuits Syst. II, Express Briefs, vol. 70, no. 1, pp. 286-290, 2023.

    [24] F. Chen, R. Ying, J. Xue, F. Wen, and P. Liu, "ParallelNN: A Parallel Octree-based Nearest Neighbor Search Accelerator for 3D Point Clouds," in IEEE Int. Symp. High Perform. Comput. Archit. (HPCA), 2023, pp. 403-414.

    [25] F. Min et al., "Dadu-Eye: A 5.3 TOPS/W, 30 fps/1080p High Accuracy Stereo Vision Accelerator," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 68, no. 10, pp. 4207-4220, 2023.

    [26] L. Chang, X. Zhao, D. Fan, Z. Hu, and J. Zhou, "HDSuper: Algorithm-Hardware Co-design for Light-weight High-quality Super-Resolution Accelerator," in Proc. Des. Autom. Conf. (DAC), 2023, pp. 1-6.

    [27] D. Lyu, Z. Li, Y. Chen, N. Xu, and G. He, "FLNA: An Energy-Efficient Point Cloud Feature Learning Accelerator with Dataflow Decoupling," in Proc. Des. Autom. Conf. (DAC), 2023, pp. 1-6.

    [28] M. Han et al., "QuickFPS: Architecture and Algorithm Co-Design for Farthest Point Sampling in Large-Scale Point Clouds," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 42, no. 11, pp. 4011-4024, 2023.

    [29] H. Fang, Y. Tan, A. Ren, W. Zhuang, Y. Hua, Z. Qin, and D. Liu, "DSAV: A Deep Sparse Acceleration Framework for Voxel-Based 3-D Object Detection," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 613-626, 2025.

    [30] Y. Lian, X. Yang, K. Hong, Y. Wang, N. Xu, and G. Dai, "A Point Transformer Accelerator With Distribution-Aware Heuristic Distance Calculation," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 751-764, 2025.

    [31] Y. Li, M. Li, C. Chen, X. Zou, H. Shao, F. Tang, and K. Li, "SimDiff: Point Cloud Acceleration by Utilizing Spatial Similarity and Differential Execution," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 568-581, 2025.

    [32] J. Jung, S. Kim, B. Seo, W. Jang, S. Lee, J. Shin, D. Han, and K. J. Lee, "An Energy-Efficient Processor for Real-Time Semantic LiDAR SLAM in Mobile Robots," IEEE J. Solid-State Circuits, vol. 60, no. 1, pp. 112-124, 2025.

    [33] M. Lefebvre and D. Bol, "MANTIS: A Mixed-Signal Near-Sensor Convolutional Imager SoC Using Charge-Domain 4b-Weighted 5-to-84-TOPS/W MAC Operations for Feature Extraction and Region-of-Interest Detection," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 934-948, 2025.

    [34] Q. Hong, H. Jiang, P. Xiao, S. Du, and T. Li, "A Parallel Computing Scheme Utilizing Memristor Crossbars for Fast Corner Detection and Rotation Invariance in the ORB Algorithm," IEEE Trans. Comput., vol. 74, no. 3, pp. 996-1010, 2025.

    [35] Z. Wei et al., "A 2.793 μW Near-Threshold Neuronal Population Dynamics Trajectory Filter for Reliable Simultaneous Localization and Mapping," IEEE Trans. Circuits Syst. I, vol. 72, no. 3, pp. 1269-1281, 2025.

    [36] J. Shin, H. Jeong, S. Kim, S. Lee, and K. J. Lee, "C²IM-NN: A Low-Power 3D Point Clouds Matching Processor With 1D-CNN Prediction and CAM-Based In-Memory k-NN Searching," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 72, no. 3, pp. 1-12, 2025.

    [37] Z. He et al., "Perovskite retinomorphic image sensor for embodied intelligent vision," Sci. Adv., vol. 11, no. 1, pp. eads2834, 2025.

    [38] I.-T. Lin et al., "A 28-nm 142-mW Motion-Control SoC for Autonomous Mobile Robots," IEEE J. Solid-State Circuits, vol. 60, pp. 1-12, 2025.

    [39] X. Feng, X. Lin, H. Yang, Y. Liu, and W. Sun, "A Scalable BEV Perception Processor for Image/Point Cloud Fusion Applications Using CAM-Based Universal Mapping Unit," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 1002-1013, 2025.

    [40] S. Lim, J. Heo, J. Yang, and J.-Y. Kim, "Hawkeye: A Point Cloud Neural Network Processor With Virtual Pillar and Quadtree-Based Workload Management for Real-Time Outdoor BEV Detection," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 990-1001, 2025.