单位: ST Microelectronics, India
主要问题: 图像配准算法计算需求大,限制实时应用;难以在保持性能前提下处理不同大小的图像。
设计与优化
:
数据结构: 利用参考和搜索帧数据序列实现并行处理
算法: 实现优化版归一化互相关函数(NCCF)、均方误差(MSE)和蓝屏技术(BST)
硬件架构: 基于脉动阵列的VLSI架构,包含256个窗口处理器(WPs)
关键成果: 实现了实时图像配准,支持不同图像尺寸和跟踪范围,兼容多种算法。
未解决问题: 处理非常大的参考图像(>16×16像素)时效率降低,级联芯片增加成本。
单位: 中国科学院半导体研究所
主要问题: 传统机器视觉系统存在I/O负载重、功耗大、难以执行高速迭代图像处理等问题。
设计与优化
:
数据结构: 灵活的像素-PE映射关系,支持多像素到单PE、单像素到单PE或单像素跨多PE的映射
算法: 支持低/中/高级图像处理算法,通过不同级别的并行性实现
硬件架构: 集成CMOS图像传感器、SIMD PE阵列、SIMD行处理器和嵌入式微处理器
关键成果: 实现目标跟踪、模式提取和图像识别,超过1000fps的高速图像捕获。
单位: 台湾国立清华大学
主要问题: SIFT算法健壮性高,但计算密集且内存需求大,软件实现难以满足实时需求。
设计与优化
:
数据结构: 开发段缓冲方案,以流的方式提供数据,减少50%内存需求
算法: 设计全硬件SIFT加速器,采用三级流水线架构
硬件架构: 实现关键点识别和特征描述生成的并行化和高速数据传输
关键成果: 迄今最快的全硬件SIFT加速器,VGA图像帧处理时间33毫秒,支持实时操作。
单位: 密歇根大学
主要问题: 微型自主飞行器(MAVs)受严格功率预算限制,需要能效高的特征提取算法。
设计与优化
:
数据结构: 提出圆形采样区域,统一方向分配和特征描述为一步
算法: 优化SURF算法,将尺度空间限制在单个八度,增加额外滤波器补偿特征损失
硬件架构: 匹配吞吐量加速器架构,使用完全展开滤波器和单流描述符
电路层次: 开发基于移位锁存器延迟元件和平衡泄漏读出技术的低功耗FIFO
关键成果: 功耗降至2.7 mW,同时在全VGA帧上保持高质量特征提取,能效比之前设计提高3.5倍。
单位: 中国科学院半导体研究所
主要问题: 传统视觉系统受串行图像传输和处理瓶颈限制,集成高性能神经网络需要大量芯片面积。
设计与优化
:
数据结构: 架构包括像素并行PE阵列、行并行RP阵列和动态可重构SOM神经网络
算法: SOM神经网络采用LVQ方法训练,实现快速模式识别
硬件架构: 集成冯诺依曼处理器和非冯诺依曼SOM神经网络;动态重构使PE阵列和SOM网络共享资源
关键成果: 实现超过1000 fps处理速度,展示手势识别、人脸检测和地平线估计应用。
单位: 加州大学圣地亚哥分校
主要问题: 将计算密集型3D重建算法嵌入FPGA资源有限的平台,同时保持实时性能。
设计与优化
:
数据结构: 修改数据结构优化内存访问模式,从结构数组转换为数组结构
算法: 优化包括循环展开、内核专用化、用FPGA特定通道和移位寄存器替代树缩减
硬件架构: 使用Altera OpenCL SDK在Stratix V FPGA上实现设计
关键成果: 成功在FPGA上嵌入迭代最近点(ICP)算法,实现26-28 FPS的实时性能。
单位: 麻省理工学院
主要问题: 最小化数据移动能耗(比计算本身更耗能),同时支持高并行性和适应不同CNN形状。
设计与优化
:
数据结构: 实现四级内存层次结构,包括DRAM、GLB、PE间通信和PE暂存器
算法: 提出行静态(RS)数据流,通过局部最大化数据重用优化能效
硬件架构: 空间架构含168个PE、片上网络支持多播和点对点数据传输、行程长度压缩
关键成果: 展示可重构CNN加速器可行性,支持先进CNN如AlexNet和VGG-16。
单位: 密歇根大学
主要问题: 半全局匹配(SGM)算法计算复杂度高(2 TOP/s)、内存带宽要求极高(38.6 Tb/s)。
设计与优化
:
数据结构: 以重叠50×50像素块处理输入图像,减少95.4%内存需求
算法: 实现依赖解析对角扫描SGM,支持代价聚合中的流水线和并行性
硬件架构: 深度流水线架构,采用超宽自定义SRAM,片上访问带宽达1.64 Tb/s
电路层次: 采用HVT晶体管和偏斜反相器的自定义高带宽SRAM
关键成果: 实现全HD(1920×1080)30 fps实时深度估计,512级深度分辨率,功耗仅836 mW。
单位: 密歇根大学安娜堡分校
主要问题: 基于CNN的视觉SLAM需要大量计算资源(约250 GOPS),同时数据依赖性高。
设计与优化
:
数据结构: 分层内存组织消除捆绑调整优化的外部DRAM访问
算法: 提出线性求解器中数值稳定的定点实现,贪婪特征匹配剪枝消除97%不必要匹配
硬件架构: 可编程CNN引擎、PnP引擎和BA引擎
关键成果: 单芯片上实现全视觉SLAM,在KITTI基准测试上实现80fps VGA处理,功耗243.6mW。
单位: 麻省理工学院电气与计算机科学系
主要问题: 在纳米级无人机上运行视觉惯性里程计(VIO)算法,功率预算有限(约100mW)。
设计与优化
:
数据结构: 高效内存层次结构减少外部DRAM带宽9倍,数据压缩减少片上内存4.4倍
算法: 通过重调度和并行性提高吞吐量43%
硬件架构: 整个VIO系统集成在单个芯片上,包括IMU预集成、特征跟踪和非线性图优化
关键成果: 实现20 FPS的实时VIO处理,功耗仅2mW。
单位: 罗切斯特大学计算机科学系
主要问题: 点云配准是3D感知的基础操作,但KD树搜索占配准时间50%以上,难以并行化。
设计与优化
:
数据结构: 提出两阶段KD树,将子节点组织为无序集合而非子树
算法: 引入近似KD树搜索算法,减少计算负载同时引入并行性
硬件架构: Tigris加速器架构,利用并行PE和流水线技术
关键成果: Tigris在KD树搜索上比RTX 2080 Ti GPU快77.2倍,功耗减少7.4倍。
单位: 清华大学电子工程系
主要问题: SIFT算法虽健壮,但计算成本和能量消耗高。
设计与优化
:
算法: 重新设计SIFT算法,修改滤波器大小、高斯比率等参数
硬件架构: 提出模拟信号处理架构(ASP-SIFT),在A-D转换前直接在模拟域执行
电路层: 设计工作在亚阈值区域的电流模式电路网络
关键成果: VGA格式图像处理速度高达2.3kframes/s,比数字加速器快至少3.26倍,每帧能耗仅40μJ。
单位: 密歇根大学
主要问题: 大规模点云中的k最近邻(kNN)搜索面临高内存带宽需求、随机访问多、数据重用少。
设计与优化
:
数据结构: k-d树分为两组:高重用树节点和低重用点桶
算法: 应用内存优化方案,包括读写缓存将随机访问转为顺序访问
硬件架构: 在FPGA上实现的架构包含用于管理树节点和桶结构的两个小型片上缓存
关键成果: 比现代CPU快19倍,比GPU快7.3倍,能效提高两个数量级。
单位: 天津大学微电子技术成像与传感重点实验室
主要问题: 传统优化BA性能的方法严重依赖并行处理或分布式计算,功耗高。
设计与优化
:
数据结构: 基于共观测优化技术,加速BA操作并减少内存和计算复杂度
算法: 开发结合解析和前向自动微分的硬件友好微分方法
硬件架构: 在嵌入式FPGA SoC上实现π-BA架构
关键成果: 比ARM和FPGA实现快7.56倍,比Intel实现降低功耗91.5%。
单位: 罗切斯特大学
主要问题: 传统点云算法因邻居搜索、聚合和特征计算的串行执行导致关键路径延迟长。
设计与优化
:
数据结构: 引入邻居索引表(NIT)和点特征表(PFT)高效管理邻居索引和计算特征
算法: 提出延迟聚合原语,将聚合延迟到特征计算之后
硬件架构: 对传统DNN加速器进行扩展,包括智能数据结构分区和专用内存单元
关键成果: 硬件支持下速度提高3.6倍,无硬件修改下速度提高1.6倍,能耗降低51.1%。
单位: 中山大学数据与计算机科学学院
主要问题: 在能量和资源受限设备上部署基于DNN的立体估计算法面临高计算复杂度挑战。
设计与优化
:
数据结构: 使用二值神经网络(BNN)学习判别性二值描述符
算法: 开发轻量级BNN立体估计算法StereoBit,整合层集成、卷积重用和网络剪枝
硬件架构: StereoEngine设计为全流水线端到端立体视觉加速器
关键成果: 比高端和嵌入式GPU快3×、13×和50×,能效提高211×、58×和73×。
单位: 韩国科学技术院(KAIST)
主要问题: 基于GCN的方法需要大量计算资源和外部内存访问,移动设备电池限制性能。
设计与优化
:
数据结构: 采用稀疏分组的膨胀图卷积(SG-DGC)来稀疏分组点云
算法: SG-DGC算法减少图卷积过程中邻居数量,同时保持大感受野
硬件架构: 提出两级流水线(TLP),包括点级和组级流水线,平衡工作负载
关键成果: 计算量减少71.7%,外部内存访问减少76.9%,实现30.8帧/秒实时性能,功耗仅95mW。
单位: 上海科技大学
主要问题: 立体匹配算法计算密集,在嵌入式平台难以满足实时和能源需求。
设计与优化
:
数据结构: 引入稀疏Census特征表示,减少内存存储和访问
算法: 提出基于块级PatchMatch的立体匹配算法,采用随机搜索策略
硬件架构: 开发专用FPGA架构,最小化内存需求
关键成果: 在128视差级别下,实现1920×1080分辨率、165.7FPS的峰值性能,功耗仅3.35W。
单位: 中国科学院计算技术研究所
主要问题: EBVO算法数据密集,在传统冯诺依曼架构上面临内存墙瓶颈。
设计与优化
:
数据结构: 提出PIM友好的数据布局和计算方案
算法: 简化EBVO算法所需的关键计算内核
硬件架构: 提出位并行可重构SRAM-PIM架构
关键成果: 通过SRAM基于处理器内存技术缓解内存墙瓶颈,处理速度提高11倍,能耗降低20倍。
单位: 北京航空航天大学
主要问题: 事件相机生成大量事件流数据需要EMVS处理,但计算量大,难以在嵌入式平台实时部署。
设计与优化
:
数据结构: 使用视差空间图像(DSI)将观察空间离散化为体素
算法: 通过重新调度、近似计算和混合数据量化,重构EMVS算法
硬件架构: 设计集成FPGA和ARM的异构系统
关键成果: 相比Intel i5 CPU平台,能效提升达24倍,成功加速EMVS的事件反投影和体积射线计数。
单位: 重庆大学
主要问题: 自动驾驶车辆配备多个高吞吐量传感器,传统车载系统依赖软件栈处理数据,CPU消耗高。
设计与优化
:
数据结构: 引入统一访问模块,使用硬件协议解析接收、解析和传输原始数据
算法: 将预处理驱动卸载到预处理器模块
硬件架构: 两个硬件模块构建到处理器/加速器的快速路径
关键成果: 减少到处理器数据路径的延迟55.5%,到加速器数据路径的延迟93.8%。
单位: 华中科技大学
主要问题: SIFT计算密集且耗电高,需要高效硬件加速以满足AIoT边缘设备需求。
设计与优化
:
数据结构: 使用旋转SRAM组实现滑动窗口操作
算法: 提出优化算法,包括圆形区域和极坐标方法并行化主方向分配
硬件架构: 可重构并行高斯金字塔生成器架构
电路层次: 使用动态填充设计方法防止信息丢失
关键成果: 实现最高162帧每秒,低功耗和高能效,适合高帧率AIoT应用。
单位: 南方科技大学
主要问题: SLAM技术计算复杂,在低资源平台上实现具有挑战性。
设计与优化
:
数据结构: 设计具有专用指令集的可重构架构,将SLAM算法分解为基本操作
算法: 使用四元数、李代数、旋转矩阵和CORDIC三角函数优化姿态估计
硬件架构: 实现两个并行计算核心:一个用于矩阵运算,另一个用于姿态估计
关键成果: 高精度和性能,同时减少硬件资源使用和内存需求,支持视觉SLAM和雷达SLAM。
单位: 上海交通大学
主要问题: 实时处理高吞吐量3D点云需要高效k-近邻搜索。
设计与优化
:
数据结构: 使用轨迹编码和深度信息优化树和叶节点缓存
算法: 提出基于轨迹编码队列的并行八叉树构建算法
硬件架构: 设计具有多通道HBM、FXDMA和可配置搜索引擎的架构
关键成果: 打破内存带宽限制,实现高效并行八叉树构建和搜索,比CPU快107.7倍,比GPU快12.1倍。
单位: 中国科学院计算技术研究所
主要问题: 立体视觉解决方案面临高计算开销、片外内存访问和硬件效率低下等挑战。
设计与优化
:
数据结构: 设计成本估计模块从YUV图像生成成本体积
算法: 将池化和反卷积融合到卷积层;集成光流算法近似估计一半帧的深度
硬件架构: 加速器具有超级流水线MAC阵列、专用成本估计模块和光流模块
关键成果: 实现5.3TOPS/W功率效率,40fps/720p或30fps/1080p图像处理。
单位: 电子科技大学
主要问题: 基于深度学习的超分辨率网络参数多、计算复杂,难以在嵌入式设备上部署。
设计与优化
:
数据结构: 设计轻量级深度可分离卷积块减少网络大小
算法: 使用深度可分离卷积(DS)和像素混洗取代标准卷积和反卷积
硬件架构: 统一计算核心(UCC)结合高效平坦化分配映射策略
电路层次: 实施滑动窗口和预存储机制减少带宽需求
关键成果: 在放大因子2下实现37.44dB PSNR,功耗仅2.08W,支持81fps实时推理。
单位: 上海交通大学
主要问题: GFLN流水线中数据依赖导致内存占用大,计算冗余严重。
设计与优化
:
数据结构: 引入数据流解耦策略减少内存消耗和冗余计算
算法: 解耦FEN数据流以启用独立点级处理
硬件架构: 高度流水线化架构,采用块级处理策略和基于链表的查找表
关键成果: 相比GPU和CPU实现69.9-264.4倍加速,能效提升超过99%。
单位: 北京航空航天大学
主要问题: 点云中的最远点采样(FPS)是关键算法,但大规模点云处理时内存访问成为瓶颈。
设计与优化
:
数据结构: 引入两级树数据结构将点云分割为多个桶
算法: 提出基于桶的FPS算法,合并计算和隐式计算机制
硬件架构: QuickFPS加速器具有4阶段流水线和PE网格
关键成果: 相比GTX 1080Ti GPU和PointAcc分别实现43.4倍和12.2倍性能加速。
单位: 重庆大学计算机学院
主要问题: 点云的高稀疏性和不规则性导致体素化速度慢,转置卷积需要大量硬件资源。
设计与优化
:
数据结构: 设计基于哈希的分层体素器存储和索引体素
算法: 提出统一CONV和TCONV计算方案(UCT)及针对体素模型的结构化剪枝
硬件架构: 设计基于脉动阵列的骨干网络加速器,以最小硬件开销加速
关键成果: 首次实现体素化3D目标检测的端到端加速器,体素化速度提高19-19.8倍。
单位: 上海交通大学电子信息与电气工程学院
主要问题: 数据依赖性阻碍Point Transformer网络的并行执行,FPS和kNN操作冗余计算多。
设计与优化
:
数据结构: 优化Point-based Transformer架构,减少数据依赖
算法: 引入基于分布感知的启发式距离计算
硬件架构: 集成FPS-kNN架构减少重复内存访问
关键成果: 实现最高2.96×、1.70×和1.19×的端到端加速,相比PointAcc、MARS和PTrAcc等加速器。
单位: 中南大学计算机科学与工程学院
主要问题: 边缘更新操作破坏相邻点间特征相似性,难以重用中间特征。
设计与优化
:
数据结构: 引入基于八叉树的密度自适应子树选择策略
算法: 开发相似性感知差分点云神经网络(SD-PCNet)
硬件架构: SD-PCAcc支持加速器,包括相似性感知协调器、邻居搜索单元等
关键成果: 平均实现3.2倍加速和3.1倍能效提升,不牺牲精度。
单位: 韩国蔚山科学技术研究院
主要问题: 语义LiDAR SLAM计算需求高,现有方案能耗高。
设计与优化
:
数据结构: 引入基于球坐标的分箱(SB)搜索优化kNN操作
算法: 全局点级任务调度器(GPTS)实现两步工作负载平衡
硬件架构: 集成语义LiDAR SLAM处理器(LSPU),包含专用核心
电路层次: 实现伪随机数生成器和基于哈希页表的内存管理单元
关键成果: 实现20.7毫秒/帧的实时处理,能耗比现代平台低99.89%。
单位: 鲁汶天主教大学
主要问题: 现有解决方案在支持复杂度中等任务时难以保持能效。
设计与优化
:
算法: 在电荷域使用开关电容放大器和电荷共享的4位加权MAC操作
硬件架构: MANTIS SoC集成Cortex-M4 CPU与混合信号图像传感器宏
电路层次: 引入DS3单元结合增量复位采样、图像下采样和电压下移
关键成果: 执行特征提取和ROI检测时实现高能效(最高84.1 TOPS/W)。
单位: 湖南大学计算机科学与电子工程学院
主要问题: 频繁内存访问和传输带宽限制阻碍速度提升。
设计与优化
:
算法: 提出优化用于模拟电路实现的改进FAST角点检测算法
硬件架构: 基于忆阻器交叉开关的内存计算加速器
电路层次: 外围电路和忆阻器交叉开关(PCMC)执行FAST角点检测
关键成果: 平均处理速度提升22倍,获得更均匀的角点分布。
单位: 新加坡南洋理工大学
主要问题: 实时SLAM中纠正累积轨迹误差,实现超低功耗。
设计与优化
:
数据结构: 开发近似神经群体动力学推理操作的离散过程算法
算法: 通过有限差分方法对数字内存处理硬件实现优化
硬件架构: 超轻量级数字宏,具有大规模并行原位处理
电路层次: 双模式累加器和随机访问神经元阵列
关键成果: 通过神经群体动力学方法纠正轨迹误差,功耗低于10微瓦。
单位: 韩国蔚山科学技术研究院
主要问题: 3D点云数据规模大,无序性导致随机外部内存访问。
设计与优化
:
数据结构: 扩张1D-CNN预测的基于体素分区,将访问从O(N²)降至O(N)
算法: 时空预测与扩张1D-CNN优化k-NN搜索
硬件架构: 包括NEU、基于CAM的计算内存宏和全局排序器
电路层次: 9T1C SRAM位元设计支持CIM和ICAM操作
关键成果: 与最先进FPGA相比,能效提高23.08倍,内存占用减少48.4%。
单位: 上海交通大学电子信息与电气工程学院
主要问题: 缺乏超灵敏、可重构的视网膜形态设备和高效边缘处理算法。
设计与优化
:
算法: 设计即时一维特征提取(ODFE)算法替代卷积
硬件架构: 4096像素钙钛矿图像传感器阵列(RSA)
电路层次: 钙钛矿光探测器与非晶硅薄膜晶体管结合
关键成果: 实现弱光条件下自适应成像,使用ODFE高效提取特征,实现实时视觉目标识别。
单位: 台湾国立大学
主要问题: 平衡运动控制率与轨迹时间步数之间的权衡。
设计与优化
:
算法: 采用基于采样的轨迹优化算法,支持高度并行硬件加速
硬件架构: SoC包括轨迹优化加速器,配备4×4 PE阵列
电路层次: 优化PE架构降低延迟63%、内存使用减少99%
关键成果: 实现运动控制率>1 kHz,优于最先进设计,最大控制率提高22倍,能效提高350倍。
单位: 清华大学电子工程系
主要问题: 稀疏卷积和BEV平面映射造成不规则内存访问,计算需求大。
设计与优化
:
数据结构: 基于CAM的深度融合核心加速不规则BEV操作
算法: 处理器支持可重构互连拓扑和灵活调度策略
硬件架构: 可扩展架构和芯片级并行性,支持灵活互连
电路层次: 基于CAM的映射单元降低不规则内存访问开销
关键成果: 首个基于BEVFusion的端到端加速器,实现更高频率、2倍面积效率和2.61倍能效。
单位: 韩国科学技术院(KAIST)
主要问题: 点云的不规则和稀疏特性难以高效处理。
设计与优化
:
数据结构: 引入虚拟柱状体(VPs)动态生成时态柱状体
算法: 基于四叉树的工作负载管理系统,符号-幅度表示实现切片级跳过
硬件架构: 异构架构,包括特征编码核心、图管理核心和LPNEs
电路层次: 基于SM表示的位切片计算架构
关键成果: 实现实时鸟瞰图检测,320 MHz下达44.2 FPS,能效38.5 TOPS/W。
图像/点云配准建模加速芯片研究领域经历了从单一功能到系统集成、从通用计算到专用架构的演变过程。过去十多年间,该领域呈现出明显的多中心发展格局,主要研究力量分布在美国(MIT、密歇根大学、罗切斯特大学)、中国(中科院、上海交通大学、清华大学、北航)、韩国(KAIST、蔚山科技院)和台湾地区(国立清华大学、台湾大学)。
研究重点经历了几个阶段的演变:早期(2007-2014)主要关注基础图像处理加速器,如Gupta(2007)的图像配准VLSI架构和Huang(2012)的SIFT硬件加速器;中期(2015-2020)开始探索点云处理和神经网络加速,如Chen(2017)的Eyeriss和Xu(2019)的Tigris;近期(2021-2025)则深入研究端到端系统和新型计算架构,如Jung(2024)的语义LiDAR SLAM处理器和Feng(2025)的BEV融合加速器。
技术上呈现四个明显趋势:1)从单一功能模块向完整系统演进;2)从通用架构向高度专用架构转变;3)从数字电路向混合信号和模拟计算扩展;4)从独立优化向算法-硬件深度耦合发展。特别是近两年,多模态感知融合、神经形态计算和近传感器处理成为研究热点。
这些研究的科学意义在于:1)推动了计算复杂度和功耗墙的突破,使实时3D感知成为可能;2)促进了从云端到边缘的AI计算范式转变;3)发展了新型计算内存融合架构,挑战传统冯·诺依曼架构;4)为自动驾驶、机器人导航等应用提供了高能效解决方案,加速了这些领域的技术突破。中国研究团队在视觉SLAM加速、忆阻器计算和点云特征提取方面做出了独特贡献,显示出强劲的研究实力和创新能力。
在图像/点云配准建模加速芯片领域,过去十多年出现了一系列重要里程碑:
图像特征提取加速方面,从Huang等(2012)的SIFT硬件加速器(33ms处理时间)到Fan等(2020)的ASP-SIFT(2.3kframes/s)和Hong等(2024)的忆阻器ORB加速器(比传统方法快22倍),处理速度提升了近两个数量级。Jeon等(2014)将特征提取功耗降至2.7mW,为资源受限设备应用奠定基础。He等(2025)的钙钛矿视网膜形态传感器将特征提取直接集成在传感器阵列上,标志着传感-计算一体化的重要进展。
点云处理领域,Xu等(2019)的Tigris架构首次为KD树搜索提供高效硬件加速(比GPU快77.2倍)。Chen等(2023)的ParallelNN通过并行八叉树构建实现近邻搜索加速(比CPU快107.7倍)。Han等(2023)的QuickFPS针对最远点采样优化,相比GPU加速43.4倍。Li等(2024)的SimDiff利用空间相似性减少计算冗余,平均实现3.2倍加速和3.1倍能效。Lian等(2024)和Shin等(2024)分别解决了点变换器架构和点云匹配中的效率问题。
立体视觉与深度估计从Li等(2017)的立体深度处理器(1080p@30fps)到Chen等(2020)的StereoEngine(比GPU快50倍)再到Min等(2023)的Dadu-Eye(5.3TOPS/W),实现了从高分辨率到高能效的全面进步。Wang等(2022)的PatchMatch立体匹配处理器达到165.7FPS的峰值性能,成为该领域的新标杆。
SLAM与导航加速方面,Suleiman等(2019)的Navion(2mW)和Li等(2019)的CNN-SLAM处理器开创了微型设备上的实时SLAM。Tan等(2023)的SLAM协处理器和Wei等(2024)的神经群体动力学轨迹滤波器(功耗<10μW)分别从可重构架构和超低功耗方向优化SLAM加速。Jung等(2024)实现了首个完全集成的语义LiDAR SLAM处理器,处理时间仅20.7毫秒/帧。Lin等(2025)的运动控制SoC将控制率提高到千赫兹级别,填补了感知与控制间的研究空白。
3D目标检测与BEV感知成为近年研究热点。Fang等(2024)首次实现体素化3D目标检测的端到端加速,体素化速度提高近20倍。Feng等(2025)和Lim等(2025)从多模态融合和工作负载管理角度优化BEV感知,实现了实时处理能力。
新型计算架构不断涌现,从早期的PE阵列(Gupta, 2007)到近期的混合信号处理(Lefebvre & Bol, 2024)、忆阻器计算(Hong, 2024)、基于CAM的计算内存(Shin, 2024)和片上集成视网膜形态传感器(He, 2025),计算范式正经历从数字向混合计算的变革,从而突破传统架构的性能和能效瓶颈。
这些里程碑共同构建了从单点算法加速到端到端系统、从高性能到低功耗、从单一模态到多模态融合的技术演进路径,推动了整个领域的快速发展。
在性能方面,加速比从早期的几倍提升到现在的数十倍甚至上百倍。如Huang(2012)的SIFT加速器比CPU提速数倍,而Lyu(2023)的FLNA实现了69.9-264.4倍加速比。处理速度也有显著提升,从Li(2017)的30fps提升到Wang(2022)的165.7FPS和Fan(2020)的2.3kframes/s。近年研究更关注实时性能,如Jung(2024)将语义SLAM处理时间控制在20.7毫秒内,Lim(2025)实现44.2FPS的BEV检测。精度方面,大多数研究保持与软件实现相当的水平,如Li(2024)和Lian(2024)特别强调加速的同时精度损失可忽略。
面积效率持续优化,Lin(2025)报告了66倍的面积效率提升,Feng(2025)实现了2倍的面积效率改善。28nm工艺成为边缘AI处理器的主流选择,Shin(2024)、Jung(2024)、Feng(2025)和Lim(2025)均采用此工艺节点。随着算法-硬件协同设计的深入,计算单元设计更加高效,如Chang(2023)的统一计算核心和Lim(2025)的异构架构显著减少了硬件资源需求。
功耗优化成果最为显著。Jeon(2014)将特征提取功耗降至2.7mW,Suleiman(2019)将VIO加速器功耗控制在2mW。Jung(2024)和Shin(2024)分别报告了99.89%和99.51%的能耗降低。能效提升范围从Li(2024)的3.1倍到Lin(2025)的350倍不等。Wei(2024)将功耗降至微瓦级(2.793μW),Lefebvre&Bol(2024)和Lim(2025)分别展示了84.1TOPS/W和38.5TOPS/W的能效,远超传统GPU实现(通常<10TOPS/W)。
这些进步得益于多种优化策略的综合应用:1)近源计算架构,如He(2022)的SRAM-PIM和Hong(2024)的忆阻器计算;2)混合信号处理,如Lefebvre&Bol(2024)的电荷域MAC;3)稀疏性利用,如Shin(2024)的稀疏感知内存寻址和Lim(2025)的符号-幅度表示;4)数据流优化,如Li(2024)的相似性感知差分执行和Lyu(2023)的数据流解耦;5)电路创新,如9T1C SRAM位元设计和PVT校准技术。
尽管取得了显著进展,现有方案在"数据结构-算法-架构深度耦合优化"方面仍存在明显不足:
数据结构层面:多数研究采用针对特定应用的数据结构,如Fang(2024)的哈希体素器、Li(2024)的八叉树和Lim(2025)的虚拟柱状体,缺乏通用、自适应的数据表示方法。虽然Chen(2023)和Shin(2024)等工作尝试优化索引结构,但大多数研究未考虑数据结构在算法执行过程中的动态调整,无法适应数据分布变化。此外,多模态数据融合场景下的统一表示仍是挑战,Feng(2025)的工作仅是初步尝试。
算法层面:大多数加速器针对单一算法高度优化,如Lian(2024)针对点变换器,Hong(2024)针对FAST角点检测,缺乏算法通用性和可重构性。虽然Jung(2024)和Feng(2025)等研究集成了多个算法模块,但各模块间协同效率不高,数据共享有限。算法稀疏性和数据稀疏性的联合利用仍不充分,许多研究如Fang(2024)和Lim(2025)仅关注一个方面。此外,算法对硬件特性的感知和自适应能力不足,难以根据平台动态调整计算精度和资源分配。
架构层面:存在明显的碎片化,不同功能模块通常需要不同加速器,难以形成统一系统。端到端系统如Jung(2024)的LSPU和Feng(2025)的BEV处理器仍缺乏统一内存层次和调度策略。虽然Feng(2025)提出了芯片级并行性,但多芯片系统的互连和协同仍处于初级阶段。异构计算单元(如FPGA、ASIC、模拟处理器)的高效融合也面临挑战,如何在保持灵活性的同时实现高性能和低功耗是未解决问题。
深度耦合不足:尽管Li(2024)和Lian(2024)等工作尝试算法-硬件协同设计,但真正的三层(数据结构-算法-架构)深度耦合优化仍很少见。多数研究在某一层做深度优化,而在其他层采用相对标准的方案。例如,Wei(2024)深度优化了轨迹滤波算法,但数据结构相对传统;Hong(2024)专注于忆阻器计算架构,但算法适应性有限。此外,缺乏系统化的反馈优化机制,难以根据运行时状态动态调整各层次的配置。
评估方法不统一:不同研究使用的性能指标和测试环境差异大,难以进行公平比较。很少有研究同时报告性能、能效、面积效率和精度等关键指标,更少有研究在真实应用场景下进行端到端评估。这限制了对不同方案优劣的客观评价,也阻碍了最佳实践的总结和推广。
这些不足突显了构建统一、自适应的数据结构-算法-架构深度耦合优化框架的必要性。该框架应支持多样化数据表示与算法的动态适应,提供跨层次的优化反馈机制,实现真正的端到端系统级优化。这不仅可以超越单点优化的局限,也能为未来通用且高效的图像/点云处理加速器奠定科学基础。
| 文献 | 任务类型 | 采用的算法 | 主要优化策略 | 实现平台 |
|---|---|---|---|---|
| Gupta & Gupta (2007) | 图像配准 | NCCF, MSE, BST | 脉动阵列架构,256窗口处理器并行计算 | VLSI |
| Zhang et al. (2011) | 通用视觉处理 | 多级图像处理算法 | 灵活像素-PE映射,多级并行处理 | 0.18μm CMOS |
| Huang et al. (2012) | 特征提取 | SIFT | 段缓冲方案,三级流水线架构 | 未说明 |
| Jeon et al. (2014) | 特征提取 | 优化SURF | 圆形采样区域,匹配吞吐量架构,低功耗FIFO | 28nm LP CMOS |
| Shi et al. (2014) | 通用视觉处理 | SOM神经网络+LVQ | 动态可重构PE阵列与SOM网络结合 | 0.18μm CMOS |
| Gautier et al. (2014) | 3D重建 | ICP, 体积集成 | 内存访问优化,循环展开,内核专用化 | Altera Stratix V FPGA |
| Chen et al. (2017) | CNN加速 | CNN | 行静态数据流,四级内存层次,零压缩技术 | 未说明 |
| Li et al. (2017) | 立体深度处理 | SGM | 块处理,依赖解析对角扫描,超宽自定义SRAM | 40nm GP CMOS |
| Li et al. (2019) | SLAM加速 | CNN特征提取+BA优化 | 分层内存组织,基于时间预测的特征匹配剪枝 | 28nm HPC CMOS |
| Suleiman et al. (2019) | 视觉惯性里程计 | 关键帧VIO | 数据压缩,固定和动态稀疏性利用 | 65nm CMOS |
| Xu et al. (2019) | 点云配准 | 两阶段KD树 | 近似KD树搜索,并行化处理元素 | 未说明 |
| Fan et al. (2020) | 图像特征提取 | 模拟SIFT | 亚阈值电流模式电路,算法-硬件协同设计 | SMIC 180nm CMOS |
| Pinkham et al. (2020) | 近邻点搜索 | 近似k-d树搜索 | 树节点/点桶分区,写读高速缓存 | FPGA |
| Liu et al. (2020) | 捆绑调整 | Levenberg-Marquardt | 共观测优化,硬件友好微分方法 | 嵌入式FPGA SoC |
| Feng et al. (2020) | 点云分析 | 延迟聚合 | 邻居索引表,点特征表,DNN加速器扩展 | 移动GPU/定制硬件 |
| Chen et al. (2020) | 立体视觉深度估计 | BNN-StereoBit | 二值神经网络,卷积核重用,网络剪枝 | FPGA |
| Kim et al. (2022) | 3D点云语义分割 | 稀疏分组膨胀图卷积(SG-DGC) | 两级流水线,点级模块级融合,中心点特征重用 | 65nm CMOS |
| Wang et al. (2022) | 立体匹配 | 块级PatchMatch | 稀疏Census特征,随机搜索策略 | FPGA (350MHz) |
| He et al. (2022) | 视觉里程计 | 边缘基于视觉里程计(EBVO) | PIM友好数据布局,位并行SRAM-PIM架构 | 90nm CMOS |
| Li et al. (2022) | 事件相机多视图立体 | EMVS | 算法硬件协同设计,高度并行化处理 | Zynq FPGA |
| Zheng et al. (2022) | 传感器数据访问 | 硬件协议解析和预处理 | 统一访问模块,预处理器模块,轻量级驱动 | FPGA |
| Liu et al. (2022) | SIFT特征提取 | 优化SIFT | 快慢双时钟域设计,部分和重用,动态填充 | 180nm CMOS |
| Tan et al. (2023) | SLAM姿态估计 | 四元数,李代数优化 | 可重构架构,内存重用策略,并行计算核心 | Zynq 7020 FPGA |
| Chen et al. (2023) | 最近邻搜索 | 并行八叉树构建 | 轨迹编码和深度信息优化,多通道HBM | Virtex HBM FPGA |
| Min et al. (2023) | 立体视觉 | DNN+光流 | 融合层调度,池化/反卷积融合 | SMIC 40nm CMOS |
| Chang et al. (2023) | 超分辨率 | 轻量级深度可分离卷积 | 统一计算核心,高效F-A映射策略 | FPGA |
| Lyu et al. (2023) | 点云特征学习 | 数据流解耦 | 并行体系结构,分块处理,转置SRAM | 40nm CMOS |
| Han et al. (2023) | 最远点采样 | 基于桶的FPS | 两级树数据结构,合并计算,4阶段流水线 | 28nm CMOS |
| Fang et al. (2024) | 3D目标检测 | 统一CONV和TCONV,结构化剪枝 | 基于哈希的分层体素器,脉动阵列骨干网络加速器 | FPGA |
| Lian et al. (2024) | 点云处理 | 基于分布感知的启发式距离计算 | 集成FPS-kNN架构,减少MaxPool和注意力-kNN层 | NVIDIA Jetson Orin |
| Li et al. (2024) | 点云加速 | 相似性感知差分点云神经网络(SD-PCNet) | 基于八叉树的密度自适应子树选择,并行原位处理 | 带HBM的ASICs |
| Jung et al. (2024) | LiDAR SLAM | 基于点神经网络(PNN) | 基于球坐标的分箱搜索,两步工作负载平衡 | 28nm CMOS |
| Lefebvre & Bol (2024) | 特征提取与ROI检测 | 电荷域4位加权MAC | 混合信号处理,增量复位采样,电压下移 | UMC 0.11μm CMOS |
| Hong et al. (2024) | 角点检测 | 改进FAST角点检测 | 基于忆阻器交叉开关的内存计算 | PSpice仿真 |
| Wei et al. (2024) | SLAM轨迹滤波 | 神经群体动力学推理 | 超轻量级数字宏,并行原位处理 | 40nm CMOS |
| Shin et al. (2024) | 3D点云匹配 | 时空预测,扩张1D-CNN | 基于体素的分区,顶点聚类,基于CAM的计算内存 | 28nm CMOS |
| He et al. (2025) | 视网膜形态视觉 | 一维特征提取(ODFE) | 钙钛矿光探测器阵列与一晶体管结构 | 定制硬件 |
| Lin et al. (2025) | 自主机器人运动控制 | 基于采样的轨迹优化 | PE阵列,片上网络工作负载平衡 | 28nm CMOS |
| Feng et al. (2025) | BEV感知 | 可重构互连拓扑,灵活调度 | 基于CAM的映射单元,芯片级并行 | 28nm CMOS |
| Lim et al. (2025) | BEV检测 | 基于四叉树的工作负载管理,符号-幅度表示 | 虚拟柱状体,异构架构与专用核心 | 三星28nm CMOS |
基于对当前研究的分析,未来图像/点云处理加速器研究可能沿以下方向发展:
多模态统一表示:未来2-3年内,将出现能同时高效表示图像、点云和其他传感数据的统一数据结构,如可变分辨率网格或混合表示,解决Feng(2025)等工作中多传感器融合的数据表示挑战。
动态自适应数据结构:2025-2026年,将发展支持运行时重构的数据结构,根据数据特性和任务需求自动调整表示形式,解决Li(2024)和Lim(2025)中提到的不均匀数据分布问题。
时空融合表示:2026-2027年,研究将融合空间和时间维度的数据表示,更好地捕捉物体运动和场景变化,扩展Jung(2024)和Shin(2024)工作中的时空特性利用。
超稀疏表示:随着自动驾驶感知距离增加,将出现针对超大规模、超稀疏点云的专用数据结构,进一步提升Han(2023)和Fang(2024)中的稀疏数据处理能力。
神经形态算法:Wei(2024)的工作已初步探索,未来2年内将加速发展基于脉冲神经网络和神经群体动力学的点云处理算法,提供超低功耗计算选项。
差分执行策略:Li(2024)的工作将扩展到更多场景,开发能够仅处理变化部分的增量算法,减少冗余计算。
任务自适应精度:2025年后,将出现根据场景复杂度动态调整计算精度的算法,结合Shin(2024)和Lim(2025)中的思想,在简单场景中使用低精度计算以节省能源。
物理启发算法:2026年后,基于物理原理的算法将用于点云配准和变形物体跟踪,为传统几何方法提供新思路。
传感-计算一体化:He(2025)和Lefebvre&Bol(2024)的工作将进一步发展,消除传感器和处理器间的边界,实现更高效的近传感器计算。
混合计算范式:数字、模拟和量子计算的协同将成为研究热点,特别是扩展Hong(2024)的忆阻器计算和Shin(2024)的CAM计算等技术,构建异质计算系统。
多芯片协同系统:Feng(2025)的工作将扩展,发展支持动态任务分配的芯片间通信和协同机制,处理更大规模点云模型。
通用可重构架构:未来3年内,将出现针对点云处理的领域特定可重构架构(DSRA),结合FPGA的灵活性和ASIC的高效性,提供比Tan(2023)更强大的可重构能力。
新型计算单元:基于新型器件如相变材料、忆阻器的计算单元将逐渐成熟,进一步降低Hong(2024)和He(2025)等工作中的能耗和延迟。
端到端加速系统:未来一年内将涌现更多像Jung(2024)那样覆盖完整处理流程的端到端解决方案,解决系统碎片化问题。
多平台异构系统:将发展跨CPU、GPU、FPGA、ASIC的协同框架,根据任务特性动态分配资源,扩展Li(2022)和Jung(2024)的异构系统思想。
可进化硬件系统:2027年后可能出现支持在线学习和自适应的硬件系统,能根据环境和任务变化调整算法和架构,结合Wei(2024)的神经动力学和Lin(2025)的优化方法。
软硬件协同优化工具链:将开发自动化工具支持从算法到硬件的联合优化,降低设计门槛,解决Li(2024)和Lim(2025)中提到的硬件特定优化挑战。
车载感知系统:将进一步整合Jung(2024)、Feng(2025)和Lim(2025)的技术,构建支持实时多任务(检测、分割、定位)的统一车载感知计算平台。
微纳机器人导航:扩展Suleiman(2019)和Wei(2024)的超低功耗设计,为微型机器人提供复杂环境下的自主导航能力。
混合现实交互:结合Hong(2024)的特征提取和Lefebvre&Bol(2024)的近传感器处理,开发支持实时手势识别和环境理解的AR/VR感知芯片。
随着这些技术路线的发展,图像/点云处理加速器将从当前的单点优化向系统化集成、从特定任务加速向通用高效处理、从静态设计向动态自适应系统转变,最终实现在极低功耗下的实时、高精度3D感知,为自动驾驶、机器人和AR/VR等新兴领域提供关键技术支撑。
[1] N. Gupta and N. Gupta, "A VLSI Architecture for Image Registration in Real Time," IEEE Trans. Very Large Scale Integr. (VLSI) Syst., vol. 15, no. 9, pp. 981-989, 2007.
[2] W. Zhang, Q. Fu, and N.-J. Wu, "A Programmable Vision Chip Based on Multiple Levels of Parallel Processors," IEEE J. Solid-State Circuits, vol. 46, no. 9, pp. 2132-2147, 2011.
[3] F.-C. Huang, S.-Y. Huang, J.-W. Ker, and Y.-C. Chen, "High-Performance SIFT Hardware Accelerator for Real-Time Image Feature Extraction," IEEE Trans. Circuits Syst. Video Technol., vol. 22, no. 3, pp. 340-351, 2012.
[4] D. Jeon et al., "An Energy Efficient Full-Frame Feature Extraction Accelerator With Shift-Latch FIFO in 28 nm CMOS," IEEE J. Solid-State Circuits, vol. 49, no. 5, pp. 1271-1284, 2014.
[5] C. Shi et al., "A 1000 fps Vision Chip Based on a Dynamically Reconfigurable Hybrid Architecture Comprising a PE Array Processor and Self-Organizing Map Neural Network," IEEE J. Solid-State Circuits, vol. 49, no. 9, pp. 2067-2082, 2014.
[6] Q. Gautier et al., "Real-time 3D Reconstruction for FPGAs: A Case Study for Evaluating the Performance, Area, and Programmability Trade-offs of the Altera OpenCL SDK," in Proc. IEEE Int. Conf. Field-Program. Technol. (FPT), 2014, pp. 326-329.
[7] Y.-H. Chen, T. Krishna, J. S. Emer, and V. Sze, "Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks," IEEE J. Solid-State Circuits, vol. 52, no. 1, pp. 127-138, 2017.
[8] Z. Li et al., "A 1920×1080 30fps 2.3TOPS/W Stereo-Depth Processor for Robust Autonomous Navigation," in IEEE Int. Solid-State Circuits Conf. (ISSCC), 2017, pp. 62-63.
[9] Z. Li et al., "An 879GOPS 243mW 80fps VGA Fully Visual CNN-SLAM Processor for Wide-Range Autonomous Exploration," in IEEE Int. Solid-State Circuits Conf. (ISSCC), 2019, pp. 134-136.
[10] A. Suleiman, Z. Zhang, L. Carlone, S. Karaman, and V. Sze, "Navion: A 2-mW Fully Integrated Real-Time Visual-Inertial Odometry Accelerator for Autonomous Navigation of Nano Drones," IEEE J. Solid-State Circuits, vol. 54, no. 4, pp. 1106-1119, 2019.
[11] T. Xu, B. Tian, and Y. Zhu, "Tigris: Architecture and Algorithms for 3D Perception in Point Clouds," in Proc. Int. Symp. Microarchitecture (MICRO), 2019, pp. 629-642.
[12] Z. Fan et al., "ASP-SIFT: Using Analog Signal Processing Architecture to Accelerate Keypoint Detection of SIFT Algorithm," IEEE Trans. Very Large Scale Integr. (VLSI) Syst., vol. 28, no. 1, pp. 198-211, 2020.
[13] R. Pinkham, S. Zeng, and Z. Zhang, "QuickNN: Memory and Performance Optimization of k-d Tree Based Nearest Neighbor Search for 3D Point Clouds," in IEEE Int. Symp. High Perform. Comput. Archit. (HPCA), 2020, pp. 180-192.
[14] Q. Liu, S. Qin, B. Yu, J. Tang, and S. Liu, "π-BA: Bundle Adjustment Hardware Accelerator Based on Distribution of 3D-Point Observations," IEEE Trans. Comput., vol. 69, no. 7, pp. 1083-1095, 2020.
[15] Y. Feng, B. Tian, T. Xu, P. Whatmough, and Y. Zhu, "Mesorasi: Architecture Support for Point Cloud Analytics via Delayed-Aggregation," in Proc. Int. Symp. Microarchitecture (MICRO), 2020, pp. 1037-1050.
[16] G. Chen et al., "StereoEngine: An FPGA-Based Accelerator for Real-Time High-Quality Stereo Estimation With Binary Neural Network," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 39, no. 11, pp. 4179-4190, 2020.
[17] S. Kim, S. Kim, J. Lee, and H.-J. Yoo, "A Low-Power Graph Convolutional Network Processor With Sparse Grouping for 3D Point Cloud Semantic Segmentation in Mobile Devices," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 69, no. 4, pp. 1507-1518, 2022.
[18] H. Wang, W. Zhou, X. Zhang, and X. Lou, "A Block PatchMatch-Based Energy-Resource Efficient Stereo Matching Processor on FPGA," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 69, no. 7, pp. 2893-2905, 2022.
[19] Y. He, S. Qu, G. Lin, C. Liu, L. Zhang, and Y. Wang, "Processing-in-SRAM acceleration for ultra-low power visual 3D perception," in Proc. Des. Autom. Conf. (DAC), 2022, pp. 295-300.
[20] M. Li et al., "Eventor: an efficient event-based monocular multi-view stereo accelerator on FPGA platform," in Proc. Des. Autom. Conf. (DAC), 2022, pp. 331-336.
[21] R. Zheng et al., "SENTunnel: Fast Path for Sensor Data Access on Automotive Embedded Systems," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 41, no. 11, pp. 3697-3708, 2022.
[22] B. Liu et al., "An Energy-Efficient SIFT Based Feature Extraction Accelerator for High Frame-Rate Video Applications," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 69, no. 12, pp. 4930-4943, 2022.
[23] Y. Tan et al., "A Reconfigurable Coprocessor for Simultaneous Localization and Mapping Algorithms in FPGA," IEEE Trans. Circuits Syst. II, Express Briefs, vol. 70, no. 1, pp. 286-290, 2023.
[24] F. Chen, R. Ying, J. Xue, F. Wen, and P. Liu, "ParallelNN: A Parallel Octree-based Nearest Neighbor Search Accelerator for 3D Point Clouds," in IEEE Int. Symp. High Perform. Comput. Archit. (HPCA), 2023, pp. 403-414.
[25] F. Min et al., "Dadu-Eye: A 5.3 TOPS/W, 30 fps/1080p High Accuracy Stereo Vision Accelerator," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 68, no. 10, pp. 4207-4220, 2023.
[26] L. Chang, X. Zhao, D. Fan, Z. Hu, and J. Zhou, "HDSuper: Algorithm-Hardware Co-design for Light-weight High-quality Super-Resolution Accelerator," in Proc. Des. Autom. Conf. (DAC), 2023, pp. 1-6.
[27] D. Lyu, Z. Li, Y. Chen, N. Xu, and G. He, "FLNA: An Energy-Efficient Point Cloud Feature Learning Accelerator with Dataflow Decoupling," in Proc. Des. Autom. Conf. (DAC), 2023, pp. 1-6.
[28] M. Han et al., "QuickFPS: Architecture and Algorithm Co-Design for Farthest Point Sampling in Large-Scale Point Clouds," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 42, no. 11, pp. 4011-4024, 2023.
[29] H. Fang, Y. Tan, A. Ren, W. Zhuang, Y. Hua, Z. Qin, and D. Liu, "DSAV: A Deep Sparse Acceleration Framework for Voxel-Based 3-D Object Detection," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 613-626, 2025.
[30] Y. Lian, X. Yang, K. Hong, Y. Wang, N. Xu, and G. Dai, "A Point Transformer Accelerator With Distribution-Aware Heuristic Distance Calculation," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 751-764, 2025.
[31] Y. Li, M. Li, C. Chen, X. Zou, H. Shao, F. Tang, and K. Li, "SimDiff: Point Cloud Acceleration by Utilizing Spatial Similarity and Differential Execution," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 568-581, 2025.
[32] J. Jung, S. Kim, B. Seo, W. Jang, S. Lee, J. Shin, D. Han, and K. J. Lee, "An Energy-Efficient Processor for Real-Time Semantic LiDAR SLAM in Mobile Robots," IEEE J. Solid-State Circuits, vol. 60, no. 1, pp. 112-124, 2025.
[33] M. Lefebvre and D. Bol, "MANTIS: A Mixed-Signal Near-Sensor Convolutional Imager SoC Using Charge-Domain 4b-Weighted 5-to-84-TOPS/W MAC Operations for Feature Extraction and Region-of-Interest Detection," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 934-948, 2025.
[34] Q. Hong, H. Jiang, P. Xiao, S. Du, and T. Li, "A Parallel Computing Scheme Utilizing Memristor Crossbars for Fast Corner Detection and Rotation Invariance in the ORB Algorithm," IEEE Trans. Comput., vol. 74, no. 3, pp. 996-1010, 2025.
[35] Z. Wei et al., "A 2.793 μW Near-Threshold Neuronal Population Dynamics Trajectory Filter for Reliable Simultaneous Localization and Mapping," IEEE Trans. Circuits Syst. I, vol. 72, no. 3, pp. 1269-1281, 2025.
[36] J. Shin, H. Jeong, S. Kim, S. Lee, and K. J. Lee, "C²IM-NN: A Low-Power 3D Point Clouds Matching Processor With 1D-CNN Prediction and CAM-Based In-Memory k-NN Searching," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 72, no. 3, pp. 1-12, 2025.
[37] Z. He et al., "Perovskite retinomorphic image sensor for embodied intelligent vision," Sci. Adv., vol. 11, no. 1, pp. eads2834, 2025.
[38] I.-T. Lin et al., "A 28-nm 142-mW Motion-Control SoC for Autonomous Mobile Robots," IEEE J. Solid-State Circuits, vol. 60, pp. 1-12, 2025.
[39] X. Feng, X. Lin, H. Yang, Y. Liu, and W. Sun, "A Scalable BEV Perception Processor for Image/Point Cloud Fusion Applications Using CAM-Based Universal Mapping Unit," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 1002-1013, 2025.
[40] S. Lim, J. Heo, J. Yang, and J.-Y. Kim, "Hawkeye: A Point Cloud Neural Network Processor With Virtual Pillar and Quadtree-Based Workload Management for Real-Time Outdoor BEV Detection," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 990-1001, 2025.