• 图像/点云配准建模加速芯片研究现状调研报告 2024

    1. 文献按时间排序与要点梳理

    1.1 J. Guo et al. (2024年2月,国立新加坡大学)

    《A 0.5"-Resolution Hybrid Dual-Band Ultrasound Imaging SoC for UAV Applications》

    1.2 L. Huang et al. (2024年3月,罗格斯大学)

    《MOPED: Efficient Motion Planning Engine with Flexible Dimension Support》

    1.3 M. Lee et al. (2024年3月,韩国汉阳大学)

    《SPADE: Sparse Pillar-based 3D Object Detection Accelerator for Autonomous Driving》

    1.4 C. Mishra et al. (2024年3月,宾夕法尼亚州立大学)

    《Uşás: A Sustainable Continuous-Learning Framework for Edge Servers》

    1.5 D. Lyu et al. (2024年4月,上海交通大学)

    《FLNA: Flexibly Accelerating Feature Learning Networks for Large-Scale Point Clouds With Efficient Dataflow Decoupling》

    1.6 J. Jung et al. (2024年5月,韩国蔚山国立科学技术研究所)

    《An Energy-Efficient, Unified CNN Accelerator for Real-Time Multi-Object Semantic Segmentation for Autonomous Vehicle》

    1.7 S. Wang et al. (2024年5月,北京航空航天大学)

    《Memristor-based adaptive neuromorphic perception in unstructured environments》

    1.8 Y. Yang et al. (2024年5月,复旦大学)

    《Firing feature-driven neural circuits with scalable memristive neurons for robotic obstacle avoidance》

    1.9 C. Wang et al. (2024年5月,重庆大学)

    《An FPGA-based kNN Search Accelerator for point cloud registration》

    1.10 K. Sugiura et al. (2024年6月,日本庆应义塾大学)

    《An Integrated FPGA Accelerator for Deep Learning-Based 2D/3D Path Planning》

    1.11 M. Han et al. (2024年6月,北京航空航天大学)

    《BitNN: A Bit-Serial Accelerator for K-Nearest Neighbor Search in Point Clouds》

    1.12 Y. Ju et al. (2024年8月,美国西北大学)

    《A 65 nm General-Purpose Compute-in-Memory Processor Supporting Both General Programming and Deep Learning Tasks》

    1.13 Q. Zhang et al. (2024年8月,密歇根大学)

    《RoboVisio: A Micro-Robot Vision Domain-Specific SoC for Autonomous Navigation Enabling Fully-on-Chip Intelligence via 2-MB eMRAM》

    1.14 Q. Liu et al. (2024年9月,复旦大学)

    《LightFusion: Lightweight CNN Architecture for Enabling Efficient Sensor Fusion in Free Road Segmentation of Autonomous Driving》

    1.15 C. Wang et al. (2024年9月,长春光华学院)

    《Toward Robust Cooperative Perception via Spatio-Temporal Modelling》

    1.16 W. He et al. (2024年11月,西安交通大学)

    《A Real-Time and High Precision Hardware Implementation of RANSAC Algorithm for Visual SLAM Achieving Mismatched Feature Point Pair Elimination》

    1.17 A. Barnes et al. (2024年11月,普渡大学)

    《Extending GPU Ray-Tracing Units for Hierarchical Search Acceleration》

    1.18 M. Li et al. (2024年11月,复旦大学)

    《SLAM-CIM: A Visual SLAM Backend Processor With Dynamic-Range-Driven-Skipping Linear-Solving FP-CIM Macros》

    1.19 L. Wu et al. (2024年11月,复旦大学)

    《GauSPU: 3D Gaussian Splatting Processor for Real-Time SLAM Systems》

    1.20 L. Huang et al. (2024年11月,罗格斯大学)

    《Invited: Algorithm and Hardware Co-Design for Energy-Efficient Neural SLAM》

    1.21 X. Li et al. (2024年11月,北京大学)

    《A Software-Hardware Co-design Solution for 3D Inner Structure Reconstruction》

    1.22 S. Tian et al. (2024年11月,中佛罗里达大学)

    《VITA: ViT Acceleration for Efficient 3D Human Mesh Recovery via Hardware-Algorithm Co-Design》

    1.23 Y. Xu et al. (2024年11月,清华大学)

    《Invited: Automatic Hardware/Software Design for High-Speed Autonomous Unmanned Aerial Vehicles Guided by a Flight Model》

    1.24 H. Yoon et al. (2024年11月,浦项科技大学)

    《Fused Sampling and Grouping with Search Space Reduction for Efficient Point Cloud Acceleration》

    1.25 A. Zhou et al. (2024年12月,北京航空航天大学)

    《HIGNAS: Hardware-Aware Graph Neural Architecture Search for Edge Devices》

    2. 国内外研究现状及发展动态分析

    从对以上文献的梳理来看,图像/点云配准建模加速芯片研究呈现出以下发展趋势:

    1. 多样化的应用场景驱动:从最初的纯视觉SLAM到点云处理、3D重建、自动驾驶、机器人导航等多样化场景,应用需求正在推动研究朝着更专业化和细分化方向发展。国内外研究机构都在积极探索将先进感知技术部署到资源受限环境中的可能性。

    2. 算法-硬件协同设计成为主流:大多数最新研究都采用了算法-硬件协同设计方法。这种方法通过同时优化算法和硬件架构,实现了显著的性能和能效提升。中国(复旦大学、北航等)和美国(罗格斯大学、密歇根大学等)的研究团队在这方面表现活跃。

    3. 能效成为关键指标:几乎所有研究都将能效视为关键优化目标,这反映了边缘计算和移动设备应用场景的重要性。能效的提高使得复杂的感知算法可以在资源受限的环境中运行。

    4. 新型计算架构的涌现:从基于CIM(计算内存)的架构到专用加速器,再到近内存计算,研究人员正在探索超越传统冯·诺依曼架构的新型计算范式。这些创新架构针对特定应用场景进行了优化,实现了传统架构难以达到的性能。

    5. 新兴材料与器件的应用:忆阻器等新型器件的应用(如复旦大学和北京航空航天大学的研究)为神经形态计算提供了新的可能性,特别是在模拟生物感知方面展现出独特优势。

    6. 自动化设计工具的重要性增加:如清华大学的FastPilot和北航的HGNAS,体现了自动化硬件-软件协同设计的趋势,这有助于减少设计周期并适应复杂多变的应用环境。

    7. 大规模数据处理能力的提升:点云等高维数据处理能力的提升成为研究热点,加速器设计正在从处理简单静态数据向处理大规模动态数据方向发展。

    国内研究在忆阻器神经形态计算(复旦大学)、视觉SLAM后端处理器(复旦大学)和硬件感知神经架构搜索(北航)等方面展现出领先优势,而国外研究在通用计算内存处理器(西北大学)和微机器人视觉SoC(密歇根大学)等领域处于前沿。整体来看,双方研究各有侧重,但都在探索如何在资源受限环境中实现高效感知计算的核心挑战。

    3. 文献调研综合结果

    3.1 重要里程碑

    在图像/点云配准建模加速芯片领域,近年来出现了一系列重要里程碑,具体体现在以下几个方面:

    点云特征提取与处理

    FLNA(上海交通大学)提出的数据流解耦策略,实现了69.9-264.4倍的加速比和超过99%的能效提升,为大规模点云数据处理树立了新标准。BitNN(北航)的位级串行计算方法减少了多达90%的计算成本和84%的内存访问,解决了点云kNN搜索的效率问题。SPADE(韩国汉阳大学)实现了500 FPS的3D目标检测,通过创新的向量稀疏卷积技术解决了柱状编码稀疏性问题。

    点搜索加速

    基于FPGA的kNN搜索加速器(重庆大学)相比CPU和GPU分别实现了120倍和15倍的加速,完成kNN搜索仅需0.64毫秒。Yoon等人(浦项科技大学)提出的融合采样和分组方法实现了高达8.3倍更少的距离计算和20.7倍更快的采样和分组。Barnes等人(普渡大学)通过扩展GPU光线追踪单元实现了层次搜索加速,平均改进24.8%,拓展了GPU硬件的应用范围。

    配准算法加速器

    MOPED(罗格斯大学)为运动规划引擎带来显著改进,碰撞检查计算减少20倍以上,邻居搜索成本降低至少4倍。P3Net(日本庆应义塾大学)在2D和3D路径规划中展示了卓越的能效,其能效比比工作站高出高达1278.14倍。RANSAC算法硬件实现(西安交通大学)实现了709 fps的处理帧率,相比ARM CPU平均加速263.2倍。

    新型芯片架构

    SLAM-CIM(复旦大学)提出了用于视觉SLAM后端的处理器,实现了53.3 TFLOPS/W的峰值能效。GauSPU(复旦大学)为3D高斯溅射实时SLAM系统设计了专用处理器,实现33.6 FPS的实时姿势跟踪。GPCIM(西北大学)开发了通用计算内存处理器,实现了28.3 TOPS/W DNN宏效率和802 GOPS/W峰值CPU效率。RoboVisio(密歇根大学)为微机器人视觉设计了专用SoC,在CNN推理方面实现3.5 TOPS/W,展示了片上智能的可行性。

    神经形态计算

    基于忆阻器的适应性神经形态感知(北航)和基于忆阻器神经元的神经电路(复旦大学)展示了生物启发计算在机器人感知中的潜力,为实现更自然的环境适应性提供了新方向。

    3.2 性能、面积和功耗提升趋势

    随着研究的深入,图像/点云配准建模加速芯片在性能、面积和功耗方面呈现明显的改进趋势:

    性能提升

    从早期的几倍加速比到如今的数十倍甚至上百倍加速比,计算性能提升显著。FLNA达到69.9-264.4倍加速,BitNN实现高达6.6倍加速,SLAM-CIM的线性系统求解延迟减少3.84倍。随着专用单元(如VITA为ViT加速设计的处理元素)和并行架构的采用,处理吞吐量持续提高。

    面积效率优化

    芯片设计越来越关注面积效率。混合处理元素(如RoboVisio)相比单独实现节省40%面积和漏电。VITA的统一处理元素架构高效处理包括池化、规范化和卷积在内的各种ViT操作。神经SLAM硬件架构(罗格斯大学)实现了67.6倍的面积效率改进。

    功耗优化

    能效已成为评估加速器性能的核心指标。近内存计算架构Waffle相比10个GPU集群能效提高9.35倍至10.97倍。SLAM-CIM实现了53.3 TFLOPS/W的峰值能效。GauSPU相比RTX3090基线能效提高63.9倍。忆阻器基神经电路显示出对传统架构的能效优势,特别是在实时响应场景中。

    这些进步不仅体现在单一指标上,更重要的是在保持或提高计算精度的同时实现了多指标的综合优化。例如,LightFusion在准确性损失可忽略的情况下,MAC和参数分别减少高达5.2倍和5.3倍;HGNAS在点云分类任务上实现高达10.6倍推理加速和82.5%峰值内存减少,准确性损失微小。

    3.3 现有方案的不足分析

    尽管已取得显著进展,当前图像/点云配准建模加速芯片在"数据结构-算法-架构深度耦合优化"方面仍存在以下不足:

    数据结构优化局限性

    1. 数据表示的碎片化:不同加速器采用不同的数据结构(如FLNA的数据流解耦、BitNN的位级串行表示、莫顿编码等),缺乏统一的高效表示方法,导致跨应用场景的适应性不足。

    2. 静态结构设计:大多数研究使用预定义的数据结构,缺乏根据输入数据特性动态调整的能力,无法充分适应点云分布稀疏性和不规则性的变化。

    3. 内存层次考虑不足:虽有部分研究(如Waffle和GauSPU)关注内存优化,但多数方案未系统考虑数据结构与内存层次匹配问题,导致访存效率不佳。

    算法优化局限性

    1. 算法细粒度分解不足:许多研究倾向于整体性能优化,缺乏对算法的深度分解与理解,未充分挖掘计算冗余。如点云处理算法中的距离计算和邻居搜索尽管有改进,但仍有优化空间。

    2. 精度与效率平衡不佳:部分优化技术(如HGNAS)在提高效率时牺牲了精度,或如VITA等在保持精度时限制了加速比。

    3. 模型压缩不足:虽有部分研究(如神经SLAM)应用剪枝和蒸馏技术,但多数方案未系统考虑模型压缩对硬件实现的影响。

    架构设计局限性

    1. 专用性与通用性平衡不足:多数加速器过度专门化,如SLAM-CIM专注于SLAM后端,缺乏足够的可重构性支持不同应用场景。

    2. 异构计算资源协调不足:虽有研究(如FastPilot)关注异构平台上的任务调度,但资源动态分配与任务负载平衡仍需深入研究。

    3. 可扩展性挑战:现有架构通常针对特定规模问题优化,如SPADE和BitNN在处理超大规模点云时的可扩展性受限。

    4. 端到端系统集成不足:多数研究集中于加速单个组件或算法,缺乏对完整感知流水线的系统级优化,如从点云获取到决策的全过程加速。

    深度耦合优化不足

    1. 交叉层次优化局限:虽然多数研究采用"算法-硬件协同设计"方法,但数据结构、算法和硬件架构三者间的深度耦合优化不足。特别是数据结构对算法和硬件的影响常被忽视。

    2. 反馈优化机制缺失:缺乏从硬件执行结果反馈到算法和数据结构的动态优化机制,如基于运行时性能的自适应调整。

    3. 领域知识与优化技术融合不足:配准建模领域知识与硬件加速技术的融合度不够,多数优化仍停留在通用计算加速层面。

    这些不足凸显了本项目研究在"数据结构-算法-架构深度耦合优化"方面的必要性与科学意义。通过系统性地解决上述问题,可以实现更高效、更灵活、更适应多样化应用场景的图像/点云配准建模加速芯片设计,推动感知计算领域的技术进步。

    4. 关键参数对比表格

    文献任务类型采用的算法主要优化策略实现平台
    Guo et al. (2024)超声成像混合双频段聚焦特征自适应频率控制器和双模式序列生成,电感共享交错充电混合转换器180 nm CMOS
    Huang et al. (2024)运动规划两阶段碰撞检查,近似邻居搜索R树空间信息和SI-MBR树邻居搜索,推测性处理方案CMOS 28 nm
    Lee et al. (2024)3D目标检测动态向量修剪,稀疏卷积稀疏坐标管理硬件,稀疏感知数据流优化商用工艺(未具体说明)
    Mishra et al. (2024)边缘持续学习学生-教师模型,表示学习动态可变形脉动阵列,可再生能源利用未说明
    Lyu et al. (2024)点云特征学习数据流解耦,FEN数据流解耦块级处理策略,基于链表的查找表,转置bank策略40 nm工艺
    Jung et al. (2024)语义分割深度融合三边网络,深度可分离卷积双模式基于移位寄存器的输入重配置单元,层融合架构28 nm CMOS
    Wang et al. (2024)神经形态感知基于忆阻器的差分神经形态计算40×25忆阻器阵列(视觉),单个自导向通道忆阻器(触觉)未说明
    Yang et al. (2024)神经电路选择性通信方案,混合发放模式NbO₂忆阻器构建Hodgkin-Huxley神经元电路印刷电路板原型
    Wang et al. (2024)kNN搜索改进局部敏感哈希法基于块的RAM分区,高效点云分区Xilinx Zynq UltraScale+ MPSoC ZCU102
    Sugiura et al. (2024)路径规划PointNet编码,批处理规划全流水线点云编码器,批处理双向路径规划器Xilinx ZCU104 FPGA SoC
    Han et al. (2024)kNN搜索位级串行计算,提前终止机制维度点云编码,位级串行距离单元阵列28nm CMOS
    Ju et al. (2024)通用/DNN计算向量指令集,特殊数据流9T DAMEM和8T DOMEM位元阵列,中央计算单元65 nm CMOS
    Zhang et al. (2024)视觉处理混合处理元素阵列,统一图像激活内存掩码寄存器,局部寄存器文件,2-MB MRAM22 nm CMOS
    Liu et al. (2024)传感器融合双维度浅层DCNNs,联合不平衡损失算法优化:减少融合阶段基本块数量NVIDIA A100-SXM4-80GB GPU(测试平台)
    Wang et al. (2024)协作感知多尺度时间集成,空间协作转换器算法层面优化,无硬件架构说明Tesla V100 GPUs(测试平台)
    He et al. (2024)RANSAC加速无浮点齐次矩阵计算,直接线性变换高效数据存储和访问模式,寄存器阵列Xilinx Zynq 7100
    Barnes et al. (2024)层次搜索扩展光线追踪ISA,欧几里得/角度距离计算重用基线光线追踪流水线功能单元现有GPU RT单元扩展
    Li et al. (2024)SLAM后端预处理共轭梯度线性求解器,增量BA调度动态范围驱动跳过FP-CIM宏,中间结果累加器28 nm CMOS
    Wu et al. (2024)3D高斯溅射稀疏瓦片采样,避免完全反向传播稀疏适应性光线递归单元,内存访问放宽反向传播引擎未说明
    Huang et al. (2024, Invited)神经SLAM通道剪枝和自蒸馏,基于梯度的剪枝数据重用,帧级并行处理,三角函数查找机制28 nm CMOS
    Li et al. (2024)3D重建体素驱动方法,减少同步近内存计算架构Waffle,核心间异步通信未说明
    Tian et al. (2024)3D人体网格恢复平均池化块替代多头注意力统一处理元素架构,优化内存访问未说明
    Xu et al. (2024)UAV设计自动化飞行模型指导优化,CUDA加速非AI算子异构平台上的任务调度Nvidia Jetson Orin NX
    Yoon et al. (2024)点云加速融合采样和分组,减少搜索空间基于莫顿编码的数据结构,体素计算单元未说明
    Zhou et al. (2024)GNN架构搜索多阶段层次搜索,硬件性能预测细粒度层次设计空间,算法-硬件协同设计边缘设备(Nvidia RTX3080等)

    5. 技术路线图与发展趋势预测

    基于上述调研,可预见图像/点云配准建模加速芯片研究将沿以下几个方向发展:

    5.1 数据结构优化方向

    1. 统一高效数据表示:将出现适用于多模态感知数据(包括图像、点云、激光雷达等)的统一数据表示方法,支持跨应用场景的高效计算。

    2. 自适应数据结构:发展能根据输入数据特性(如点云密度、分布特性)动态调整的自适应数据结构,提高对不同场景的适应性。

    3. 稀疏计算友好表示:针对感知数据的稀疏特性,出现更多稀疏友好的数据结构,如BitNN提出的位级串行表示和SPADE的向量稀疏表示。

    4. 面向内存层次的数据组织:更多研究将关注数据结构与内存层次的匹配,如基于层次内存设计专用缓存策略和数据布局。

    5.2 算法轻量化方向

    1. 算法深度分解与重组:传统算法将被深度分解并重新设计,以实现计算最小化和并行最大化,如MOPED对运动规划算法的重构。

    2. 精度可调控算法:出现更多支持精度-效率灵活权衡的算法,如BitNN的位级串行计算和动态精度控制。

    3. 模型压缩与算法协同:模型压缩技术(如VITA和神经SLAM中使用的通道剪枝和知识蒸馏)将与算法优化深度结合。

    4. 自动算法生成:如HGNAS和FastPilot所示,自动化工具将在生成和优化特定领域算法中发挥更大作用。

    5.3 架构设计方向

    1. 可重构近算存架构:更多研究将探索高度可重构的近算存架构,如GPCIM和SLAM-CIM所示,融合处理和存储以减少数据移动。

    2. 异构专用加速单元:将出现更多集成异构专用单元的系统架构,针对不同计算模式(如矩阵运算、点云搜索、特征提取)分别优化。

    3. 可扩展分布式架构:为处理大规模数据,将发展可扩展的分布式处理架构,支持点云等海量数据的高效处理。

    4. 端到端流水线优化:未来设计将更关注端到端感知流水线优化,而非单个算法加速,实现从数据获取到决策的全流程优化。

    5.4 新型器件与计算范式

    1. 忆阻器与神经形态计算:如Wang等人和Yang等人的研究所示,基于忆阻器的神经形态计算将在仿生感知方面有更深入应用。

    2. 量子加速器:长期看,量子计算可能为点云配准等高维搜索问题提供突破性加速。

    3. 光子计算:对于光学图像处理和3D视觉,光子计算架构可能提供超低功耗解决方案。

    5.5 系统集成与应用层面

    1. 自主芯片设计方法学:如Xu等人和Zhou等人的研究,基于飞行模型、硬件感知的自动化设计方法将更加成熟。

    2. 边缘-云协同架构:未来将有更多研究关注边缘设备和云服务器之间的任务划分和协同计算模式。

    3. 跨领域融合系统:感知芯片将与决策、控制系统深度融合,形成完整的认知计算系统,如神经SLAM和FastPilot所示。

    5.6 综合预测

    综合上述趋势,未来3-5年内,图像/点云配准建模加速芯片将朝着"高能效、高适应性、高集成度"方向发展,出现以下典型技术路线:

    1. 多精度动态可重构路线:支持精度-效率动态权衡的可重构架构,适应不同应用场景需求。

    2. 近内存深度融合路线:将存储与计算深度融合,最小化数据移动,实现极低功耗。

    3. 神经形态感知路线:基于新型器件实现更接近生物感知系统的计算模式。

    4. 端到端异构集成路线:集成多种专用加速单元,实现从感知到决策的端到端加速。

    这些技术路线将共同推动图像/点云配准建模加速芯片在自动驾驶、机器人、AR/VR等领域的广泛应用,并带来性能和能效的持续提升。

    6. 参考文献

    [1] J. Guo, J. Feng, S. Chen, L. Wu, C. W. Tsai, Y. Huang, B. Lin, and J. Yoo, "A 0.5"-Resolution Hybrid Dual-Band Ultrasound Imaging SoC for UAV Applications," in 2024 IEEE International Solid-State Circuits Conference (ISSCC), 2024, pp. 108-110.

    [2] L. Huang, Y. Gong, Y. Sui, X. Zang, and B. Yuan, "MOPED: Efficient Motion Planning Engine with Flexible Dimension Support," in 2024 IEEE International Symposium on High-Performance Computer Architecture (HPCA), 2024, pp. 483-497.

    [3] M. Lee, S. Park, H. Kim, M. Yoon, J. Lee, J. W. Choi, N. S. Kim, M. Kang, and J. Choi, "SPADE: Sparse Pillar-based 3D Object Detection Accelerator for Autonomous Driving," in 2024 IEEE International Symposium on High-Performance Computer Architecture (HPCA), 2024, pp. 454-467.

    [4] C. S. Mishra, J. Sampson, M. T. Kandemir, V. Narayanan, and C. R. Das, "Uşás: A Sustainable Continuous-Learning Framework for Edge Servers," in 2024 IEEE International Symposium on High-Performance Computer Architecture (HPCA), 2024, pp. 891-907.

    [5] D. Lyu, Z. Li, Y. Chen, G. Wang, W. He, N. Xu, and G. He, "FLNA: Flexibly Accelerating Feature Learning Networks for Large-Scale Point Clouds With Efficient Dataflow Decoupling," IEEE Transactions on Very Large Scale Integration (VLSI) Systems, vol. 32, no. 4, pp. 739-751, 2024.

    [6] J. Jung, S. Kim, W. Jang, B. Seo, and K. J. Lee, "An Energy-Efficient, Unified CNN Accelerator for Real-Time Multi-Object Semantic Segmentation for Autonomous Vehicle," IEEE Transactions on Circuits and Systems I: Regular Papers, vol. 71, no. 5, pp. 2093-2104, 2024.

    [7] S. Wang, S. Gao, C. Tang, E. Occhipinti, C. Li, S. Wang, J. Wang, H. Zhao, G. Hu, A. Nathan, R. Dahiya, and L. G. Occhipinti, "Memristor-based adaptive neuromorphic perception in unstructured environments," Nature Communications, vol. 15, no. 1, p. 4671, 2024.

    [8] Y. Yang, F. Zhu, X. Zhang, P. Chen, Y. Wang, J. Zhu, Y. Ding, L. Cheng, C. Li, H. Jiang, Z. Wang, P. Lin, T. Shi, M. Wang, Q. Liu, N. Xu, and M. Liu, "Firing feature-driven neural circuits with scalable memristive neurons for robotic obstacle avoidance," Nature Communications, vol. 15, no. 1, p. 4318, 2024.

    [9] C. Wang, Z. Huang, A. Ren, and X. Zhang, "An FPGA-based kNN Search Accelerator for point cloud registration," in 2024 IEEE International Symposium on Circuits and Systems (ISCAS), 2024, pp. 1-5.

    [10] K. Sugiura and H. Matsutani, "An Integrated FPGA Accelerator for Deep Learning-Based 2D/3D Path Planning," IEEE Transactions on Computers, vol. 73, no. 6, pp. 1442-1456, 2024.

    [11] M. Han, L. Wang, L. Xiao, H. Zhang, T. Cai, J. Xu, Y. Wu, C. Zhang, and X. Xu, "BitNN: A Bit-Serial Accelerator for K-Nearest Neighbor Search in Point Clouds," in 2024 ACM/IEEE 51st Annual International Symposium on Computer Architecture (ISCA), 2024, pp. 1278-1292.

    [12] Y. Ju, Y. Wei, and J. Gu, "A 65 nm General-Purpose Compute-in-Memory Processor Supporting Both General Programming and Deep Learning Tasks," IEEE Journal of Solid-State Circuits, vol. 32, no. 4, pp. 739-751, 2024.

    [13] Q. Zhang, Z. Fan, H. An, Z. Wang, Z. Li, G. Wang, P. Abillama, H.-S. Kim, D. Blaauw, and D. Sylvester, "RoboVisio: A Micro-Robot Vision Domain-Specific SoC for Autonomous Navigation Enabling Fully-on-Chip Intelligence via 2-MB eMRAM," IEEE Journal of Solid-State Circuits, vol. 59, no. 8, pp. 2644-2658, 2024.

    [14] Q. Liu and S. Zhou, "LightFusion: Lightweight CNN Architecture for Enabling Efficient Sensor Fusion in Free Road Segmentation of Autonomous Driving," IEEE Transactions on Circuits and Systems II: Express Briefs, vol. 71, no. 9, pp. 4296-4300, 2024.

    [15] C. Wang, X. Yu, J. Weng, and Y. Zhang, "Toward Robust Cooperative Perception via Spatio-Temporal Modelling," IEEE Transactions on Circuits and Systems II: Express Briefs, vol. 71, no. 9, pp. 4396-4400, 2024.

    [16] W. He, Z. Lu, X. Liu, Z. Xu, J. Zhang, C. Yang, and L. Geng, "A Real-Time and High Precision Hardware Implementation of RANSAC Algorithm for Visual SLAM Achieving Mismatched Feature Point Pair Elimination," IEEE Transactions on Circuits and Systems I: Regular Papers, vol. 71, no. 11, pp. 5102-5114, 2024.

    [17] A. Barnes, F. Shen, and T. G. Rogers, "Extending GPU Ray-Tracing Units for Hierarchical Search Acceleration," in 2024 57th IEEE/ACM International Symposium on Microarchitecture (MICRO), 2024, pp. 1027-1040.

    [18] M. Li, H. Zhu, S. He, H. Zhang, J. Liao, D. Zhai, C. Chen, Q. Liu, X. Zeng, N. Sun, and M. Liu, "SLAM-CIM: A Visual SLAM Backend Processor With Dynamic-Range-Driven-Skipping Linear-Solving FP-CIM Macros," IEEE Journal of Solid-State Circuits, vol. 59, no. 11, pp. 3853-3865, 2024.

    [19] L. Wu, H. Zhu, S. He, J. Zheng, C. Chen, and X. Zeng, "GauSPU: 3D Gaussian Splatting Processor for Real-Time SLAM Systems," in 2024 57th IEEE/ACM International Symposium on Microarchitecture (MICRO), 2024, pp. 1562-1573.

    [20] L. Huang, C. Yang, Y. Gong, Y. Sui, X. Zang, A. Goeckner, Q. Zhu, and B. Yuan, "Invited: Algorithm and Hardware Co-Design for Energy-Efficient Neural SLAM," in Proceedings of the 61st ACM/IEEE Design Automation Conference (DAC '24), 2024, pp. 1-4.

    [21] X. Li, Z. Zhou, Q. Zheng, G. Sun, Q. Wang, and C. Xue, "A Software-Hardware Co-design Solution for 3D Inner Structure Reconstruction," in Proceedings of the 61st ACM/IEEE Design Automation Conference (DAC '24), 2024, pp. 1-6.

    [22] S. Tian, C. Szafranski, C. Zheng, F. Yao, A. Louri, C. Chen, and H. Zheng, "VITA: ViT Acceleration for Efficient 3D Human Mesh Recovery via Hardware-Algorithm Co-Design," in Proceedings of the 61st ACM/IEEE Design Automation Conference (DAC '24), 2024, pp. 1-6.

    [23] Y. Xu, J. Yu, S. Zhang, Y. Xiang, H. Jia, and Y. Wang, "Invited: Automatic Hardware/Software Design for High-Speed Autonomous Unmanned Aerial Vehicles Guided by a Flight Model," in Proceedings of the 61st ACM/IEEE Design Automation Conference (DAC '24), 2024, pp. 1-4.

    [24] H. Yoon and J.-J. Kim, "Fused Sampling and Grouping with Search Space Reduction for Efficient Point Cloud Acceleration," in Proceedings of the 61st ACM/IEEE Design Automation Conference (DAC '24), 2024, pp. 1-6.

    [25] A. Zhou, J. Yang, Y. Qi, T. Qiao, Y. Shi, C. Duan, W. Zhao, and C. Hu, "HGNAS: Hardware-Aware Graph Neural Architecture Search for Edge Devices," IEEE Transactions on Computers, vol. 73, no. 12, pp. 2693-2707, 2024.