发表时间: 2024年8月2日 单位: 重庆大学计算机学院 作者: Haining Fang等
主要问题:
点云的高稀疏性和不规则性导致体素化速度慢
转置卷积操作需要大量额外硬件资源
稀疏特征图和权重矩阵导致激活-权重匹配效率低、部分和累积效率低及工作负载不平衡
设计与优化:
数据结构: 设计基于哈希的分层体素器存储和索引体素
算法: 提出统一CONV和TCONV计算方案(UCT)及针对体素模型的结构化剪枝方法
硬件架构: 设计基于脉动阵列的骨干网络加速器,以最小硬件开销加速剪枝后的CONV和TCONV层
电路层次: 未明确提及
关键成果:
成功利用特征图和权重矩阵中的稀疏性,显著提高了体素化和骨干网络推理效率
首次实现了体素化3D目标检测的端到端加速器,体素化速度提高19-19.8倍,骨干网络推理加速4.29-38.01倍
未解决问题: 未明确提及,但暗示需要在处理各种稀疏模式和优化结构化剪枝方面进一步改进
发表时间: 2024年8月16日 单位: 上海交通大学电子信息与电气工程学院 作者: Yaoxiu Lian等
主要问题:
数据依赖性阻碍Point Transformer网络的并行执行
最远点采样(FPS)涉及冗余内存访问和计算开销
FPS和kNN操作间的中间结果需要重复内存访问和计算,导致Point Transformer处理速度低于实时要求(17.80帧/秒)
设计与优化:
数据结构: PTrAcc++通过移除MaxPool和注意力-kNN层优化Point-based Transformer架构,减少数据依赖
算法: 引入基于分布感知的启发式距离计算,根据输入点与目标点的分布关系自适应选择伪距离计算方法
硬件架构: 提出集成的FPS-kNN架构选择误差驱动的邻居,减少重复内存访问和中间结果重新计算
电路层次: 未提及
关键成果:
解决了Point Transformer模型中由数据依赖、冗余内存访问和计算开销导致的低效问题
实现了最高2.96×、1.70×和1.19×的端到端加速,相比PointAcc、MARS和PTrAcc等最先进加速器
未解决问题: 未明确提及,但硬件利用率优化和大型数据集可扩展性仍是未来研究方向
发表时间: 2024年8月19日 单位: 中南大学计算机科学与工程学院 作者: Yangfan Li等
主要问题:
边缘更新操作破坏相邻点间的特征相似性
难以为共享邻居的目标点重用中间特征
获取共享邻居涉及高计算和内存开销
设计与优化:
数据结构: 引入基于八叉树的密度自适应子树选择策略高效处理不均匀点分布
算法: 开发新型相似性感知差分点云神经网络(SD-PCNet),利用空间相似性和动态差分执行减少冗余
硬件架构: 提出SD-PCAcc支持加速器,核心包括相似性感知协调器、邻居搜索单元、可微更新单元和差分聚合单元
电路层次: 未提及
关键成果:
利用空间相似性显著减少计算和内存访问冗余,实现更高的加速和能效而不牺牲精度
相比最先进的Crescent等竞争对手,平均实现3.2倍加速和3.1倍能效
未解决问题: 需要进一步优化高度不均匀点分布的处理和增强硬件可扩展性
发表时间: 2024年9月6日 单位: 韩国蔚山科学技术研究院电气工程系和人工智能研究生院 作者: Jueun Jung等
主要问题:
语义LiDAR SLAM计算需求高,涉及大规模点云,需要大量内存带宽和处理能力
现有CPU+GPU方案未能满足实时约束(<50毫秒/帧)
在功率受限的移动机器人上部署此类系统因能耗高而困难
设计与优化:
数据结构: 引入基于球坐标的分箱(SB)搜索,通过减少不必要搜索区域和内存访问优化kNN操作
算法: 通过全局点级任务调度器(GPTS)实现两步工作负载平衡,优化点神经网络(PNN)执行
硬件架构: 设计集成语义LiDAR SLAM处理器(LSPU),包含用于kNN、PNN和NLO加速的专用核心
电路层次: 实现伪随机数生成器(PRNGs)用于上采样预测和基于哈希页表的内存管理单元(HMMUs)
关键成果:
实现实时语义LiDAR SLAM,处理时间为20.7毫秒/帧,能耗比现代CPU+GPU平台低99.89%
证明了能效高的完全集成系统芯片(SoC)用于语义LiDAR SLAM的可行性
未解决问题: 未明确提及,但可能需要针对更大数据集或更复杂环境的可扩展性进一步优化
发表时间: 2024年11月11日 单位: 鲁汶天主教大学信息通信技术、电子和应用数学研究所 作者: Martin Lefebvre和David Bol
主要问题:
现有解决方案在支持需要FPN补偿输入、增加权重分辨率、多尺度操作和大型滤波器ROI检测的中等复杂度任务时难以保持能效
管理固定模式噪声(FPN)、获得足够计算精度、确保传感器和处理器间高效数据传输具有挑战性
设计与优化:
数据结构: 未明确提及,但涉及卷积滤波器和图像下采样技术使用
算法: 提出在电荷域使用开关电容放大器和电荷共享的4位加权乘累加(MAC)操作进行卷积计算
硬件架构: MANTIS SoC集成Cortex-M4 CPU与混合信号图像传感器宏,包含用于双采样、电压下移和图像下采样的DS3单元
电路层次: 引入DS3单元结合增量复位采样(DRS)、图像下采样和电压下移;通过改进的开关电容放大器实现电荷域MAC操作
关键成果:
执行特征提取和ROI检测等中等复杂任务时实现高能效(最高84.1 TOPS/W),与原始图像相比数据传输减少13倍
人脸ROI检测展示11.5%漏报率,丢弃81.3%无关图像块,计算能效显著提升
未解决问题:
需要进一步减少模拟存储器漏电流,优化影响精度的布局寄生效应,改进SF失配补偿
发表时间: 2024年11月22日 单位: 湖南大学计算机科学与电子工程学院 作者: Qinghui Hong等
主要问题:
频繁内存访问和传输带宽限制阻碍速度进一步提升,特别是在高帧率和大分辨率场景下
设计与优化:
数据结构: 未明确提及
算法: 提出优化用于模拟电路实现的改进FAST角点检测算法,引入算法参数到电路参数的映射规则以降低计算成本
硬件架构: 设计基于忆阻器交叉开关的内存计算加速器,用于ORB算法特征提取和旋转不变性的并行计算
电路层次: 开发由外围电路和忆阻器交叉开关(PCMC)组成的电路用于FAST角点检测和非最大抑制,设计旋转不变性计算加速器(RICA)
关键成果:
显著提升ORB算法速度,实现比传统方法快22倍的平均处理速度,在大规模图像中获得更均匀的角点分布
首次实现基于忆阻器的ORB算法加速器,利用计算内存(CIM)技术,展示显著速度提升和均匀角点分布
未解决问题:
忆阻器的耐久性和可靠性需要进一步改进,加速器的规模和性能需要进一步扩展
发表时间: 2024年11月27日 单位: 新加坡南洋理工大学电气与电子工程学院 作者: Zhengzhe Wei等
主要问题:
主要挑战包括实时执行SLAM任务时纠正累积轨迹误差,实现超低功耗,克服硬件设计局限如可扩展性、精度和PVT问题
设计与优化:
数据结构: 开发近似神经群体动力学推理操作的自定义离散过程算法
算法: 通过有限差分方法对数字内存处理硬件实现进行算法推导和优化
硬件架构: 实现超轻量级数字宏,具有大规模并行原位处理技术和时分复用处理元件设计
电路层次: 设计具有双模式操作能力的自定义累加器和带最大地址汇聚单元(MAPU)的随机访问神经元阵列(RANA)
关键成果:
通过近似神经群体动力学方法纠正累积轨迹误差,实现可靠SLAM应用,提供低于10微瓦功耗的解决方案
制造测试芯片,具有22×22神经元阵列,0.1358平方毫米核心面积,提供12位计算精度,在0.667MHz下3277个时钟周期内完成单次推理
未解决问题:
与神经形态实现的可扩展性和进一步缩减相关的挑战仍然存在,特别是在支持纳米级微型机器人方面
发表时间: 2024年12月 单位: 韩国蔚山科学技术研究院 作者: Jeongmin Shin等
主要问题:
3D点云数据的大规模导致高计算复杂性和内存访问需求
体素内点分布不均匀且3D点云的无序特性导致随机外部内存访问
这些因素导致功耗和延迟问题,特别是在电池容量有限的移动处理器中
设计与优化:
数据结构: 使用扩张1D-CNN预测实现基于体素的分区,将外部内存访问从O(N²)降至O(N);顶点聚类根据数据分布重组点为均匀分布的簇
算法: 系统使用时空预测算法与扩张1D-CNN进行基于体素的分区和顶点聚类,优化k-NN搜索;稀疏感知动态内存寻址减少冗余内存操作
硬件架构: 处理器架构包括神经引擎单元(NEU)、基于内容可寻址内存(CAM)的计算内存(C²IM)宏和全局排序器;C²IM架构支持内存内顶点聚类和k-NN搜索
电路层次: 9T1C SRAM位元设计支持计算内存(CIM)和内存内容可寻址内存(ICAM)操作;PVT校准参考电压生成确保不同操作条件下的精度
关键成果:
显著减少外部内存访问,提高能效,最小化功耗,同时保持3D点云k-NN搜索的高精度
与最先进的FPGA架构相比,能效提高23.08×,内存占用减少48.4%,功耗降低99.51%
未解决问题:
系统对特定数据分布的依赖性以及在高度动态或稀疏环境中进一步优化的需求是未来研究领域
架构对更大数据集或更高维度的可扩展性仍待探索
发表时间: 2025年1月 单位: 国立阳明交通大学电子与电气工程系 作者: Wei-Zen Chen等
主要问题:
设计高速通信的高效收发器、降低AI加速器能耗、优化电源传输系统、提升实时渲染性能、改进内存架构、解决硬件安全问题
设计与优化:
数据结构: 未提及
算法: 优化了定位求解器、电压下降预测、神经图形处理和全同态加密(FHE)等算法
硬件架构: 引入多项创新,包括带DAC和ADC的收发器设计、基于RRAM的推理引擎、带集成螺旋电感的电压调节器和分数N混合PLL
电路层次: 优化包括LC-PLL、延迟锁定环路(DLL)和混合精度处理架构
关键成果:
实现高速数据传输与低能耗、优化边缘设备AI加速器、降低处理器供电电压下降、提高电压调节器功率密度、开发高效FHE处理器
未解决问题:
进一步提高内存电路能效、扩展复杂3D物体渲染、增强硬件安全机制以应对不断演变的网络威胁
发表时间: 2025年1月 单位: 上海交通大学电子信息与电气工程学院微纳电子系 作者: Zhilong He等
主要问题:
缺乏超灵敏、可重构和大规模可集成的视网膜形态设备
缺乏能高效处理复杂视觉信息的先进边缘处理算法
设计与优化:
数据结构: 不适用
算法: 设计即时一维特征提取(ODFE)算法替代低效的卷积方法,允许直接在传感器阵列上高效提取特征
硬件架构: 开发单片集成4096像素钙钛矿图像传感器阵列(RSA),利用一光探测器一晶体管结构实现自适应成像和可重构光响应
电路层次: 钙钛矿光探测器与非晶硅薄膜晶体管(a-Si TFTs)结合,通过离子迁移作为选择器和调制器调节光响应
关键成果:
系统成功展示了弱光条件下的自适应成像和对比度增强,使用ODFE算法高效提取特征,实现实时视觉目标识别和决策
首次实现视网膜形态系统的完整硬件实现,具有大规模、超灵敏和可重构的钙钛矿传感器阵列
未解决问题:
尽管取得显著进展,但钙钛矿材料的稳定性和可靠性还需改进以实现长期运行,系统也需扩展以适应更广泛部署
发表时间: 2025年2月 单位: 台湾国立大学 作者: I-Ting Lin等
主要问题:
平衡运动控制率与轨迹时间步数之间的权衡
基于梯度的轨迹优化方法在增加轨迹时间步数时响应慢,限制其在需要低响应时间和高弹性场景中的使用
设计与优化:
数据结构: 未明确提及
算法: 采用基于采样的轨迹优化算法,支持高度并行硬件加速;提出轨迹修剪和物理模型转换以最小化计算复杂性
硬件架构: SoC包括轨迹优化加速器,配备4×4处理元件(PE)阵列;片上网络(NoC)促进PE间数据移动和工作负载平衡;集成ARM Cortex-M3微控制器单元(MCU)用于系统配置和调度
电路层次: 优化处理元件架构降低延迟63%、内存使用减少99%;NoC架构降低轨迹展开延迟56%、减少路由复杂性84%
关键成果:
实现运动控制率>1 kHz(延迟<1毫秒)同时保持高弹性;优于最先进设计,最大运动控制率提高22倍,能效提高350倍,面积效率提高66倍
未解决问题: 未明确提及
发表时间: 2025年2月26日 单位: 清华大学电子工程系 作者: Xiaoyu Feng等
主要问题:
稀疏卷积(SCONVs)和BEV平面映射造成的不规则内存访问模式导致显著的内存寻址和映射开销
多传感器融合导致模型规模快速扩大,单芯片解决方案难以满足计算需求
设计与优化:
数据结构: 设计基于内容可寻址内存(CAM)的深度融合核心加速不规则BEV操作如SCONV和BEV映射
算法: 处理器支持可重构互连拓扑和灵活调度策略,实现BEV融合网络的并行化和流水线加速
硬件架构: 芯片采用可扩展架构和芯片级并行性,支持灵活互连拓扑和通过封装上网络(NoP)高效数据传输
电路层次: 引入基于CAM的映射单元降低不规则内存访问开销,通过平衡面积和功耗实现高搜索效率
关键成果:
通过引入基于CAM的通用映射单元和可扩展芯片级并行性,成功解决不规则内存访问和大规模模型计算挑战
首个基于BEVFusion的端到端BEV融合加速器,相比现有加速器实现更高频率、2倍面积效率和2.61倍能效
未解决问题: 未明确提及,但暗示处理高度稀疏数据和扩展系统以适应更大模型可能需要进一步改进
发表时间: 2025年2月26日 单位: 韩国科学技术院(KAIST)电气工程学院 作者: Sukbin Lim等
主要问题:
点云的不规则和稀疏特性对高效处理构成显著挑战
基于体素的PNN引入高计算和内存开销
基于柱状体的PNN面临不可预测内存需求、大量外部内存访问(EMA)和CNN骨干处理过程中稀疏性丧失等问题
设计与优化:
数据结构: 引入虚拟柱状体(VPs)动态生成时态柱状体实现连续处理,内存占用和EMA减少88.6%
算法: 提出基于四叉树的工作负载管理系统用于基于ROI的跳过,在低精度神经引擎(LPNE)中利用符号-幅度(SM)表示进行切片级跳过(SLS)
硬件架构: 设计异构架构,包括特征编码核心(FECs)、图管理核心(MMCs)和LPNEs,通过2D网格片上网络互连
电路层次: 开发基于SM表示的位切片计算架构,增强稀疏性利用并减少不必要计算
关键成果:
成功解决点云不规则和稀疏特性导致的低效问题,降低计算开销,整个处理流程中保持稀疏性
实现实时鸟瞰图(BEV)检测,320 MHz下达44.2 FPS,0.74 V和40 MHz下能效为38.5 TOPS/W
未解决问题: 可能需要进一步优化以处理极大规模环境并提高不同模型和数据集间的可扩展性
近年来,随着自动驾驶、机器人和增强现实等领域的快速发展,图像和点云处理加速器研究取得了显著进展。这些加速器旨在解决高维度、不规则数据处理中的计算复杂性和能效挑战,推动了硬件-算法协同设计方法的快速演进。
从研究主体上看,中国(上海交通大学、清华大学、重庆大学、中南大学等)、韩国(蔚山科技院、KAIST)、台湾(国立阳明交通大学、台湾大学)和欧洲(鲁汶天主教大学、新加坡南洋理工)的研究机构展现出较为均衡的贡献,形成了多中心的研究格局。
技术发展呈现四个明显趋势:1)从单一功能模块向完整系统演进,如Jung等(2024)的LiDAR SLAM处理器和Feng等(2025)的BEV融合加速器;2)从通用计算架构向高度专用架构转变,如Hong等(2024)的忆阻器交叉开关和He等(2025)的钙钛矿视网膜传感器;3)从数字电路向混合信号和模拟计算扩展,如Lefebvre和Bol(2024)的混合信号近传感器处理器;4)从独立优化向数据结构-算法-硬件深度耦合方向发展,如Li等(2024)的SimDiff框架。
这些研究的科学意义主要体现在:1)推动了计算复杂度和功耗墙的突破,使实时3D感知成为可能;2)促进了从云端到边缘的AI计算范式转变;3)发展了新型计算内存融合架构,改变了传统冯·诺依曼架构的局限;4)为特定应用领域(如自动驾驶、机器人导航)提供了高能效解决方案,加速了这些领域的技术突破。
图像/点云处理加速器领域近年来取得了几项重要里程碑:
首先,在特征提取方面,Hong等(2024)实现了首个基于忆阻器的ORB特征提取加速器,处理速度比传统方法提高22倍。Lefebvre和Bol(2024)提出的MANTIS系统实现了高达84.1 TOPS/W的能效,同时通过混合信号处理大幅减少传输数据量。He等(2025)开发的钙钛矿视网膜形态传感器将特征提取直接集成在传感器阵列上,标志着传感-计算一体化的重要进展。
在点云处理方面,Lian等(2024)和Li等(2024)分别通过优化点变换器架构和利用空间相似性,解决了点云数据依赖性和计算冗余问题。Shin等(2024)提出的C²IM-NN利用CAM实现高效k-NN搜索,能效提升23倍,这在点云配准的核心操作上取得了突破性进展。Fang等(2024)的DSAV框架首次实现体素化3D目标检测的端到端加速,体素化速度提高近20倍。
在SLAM和高级感知方面,Jung等(2024)实现了首个完全集成的语义LiDAR SLAM处理器,Wei等(2024)提出的超低功耗神经群体动力学轨迹滤波器将SLAM轨迹估计功耗降至微瓦级。Feng等(2025)和Lim等(2025)分别从多模态融合和工作负载管理角度优化了BEV感知处理,实现了实时处理能力。Lin等(2025)提出的运动控制SoC将运动控制率提高到千赫兹级别,填补了感知与控制之间的研究空白。
这些里程碑共同构成了从低级特征提取到高级语义理解、从单一传感器处理到多模态融合的完整技术栈,为图像/点云配准建模加速提供了全方位的硬件基础。
近期研究展现出性能、面积和功耗方面的显著提升趋势:
在性能方面,处理速度提升显著,从Lian等(2024)的2.96倍加速到Fang等(2024)的19.8倍加速不等,平均提升在10倍左右。实时处理能力也从Lian等(2024)的不足18帧/秒提升到Lim等(2025)的44.2帧/秒,超过了自动驾驶通常要求的30帧/秒阈值。精度方面大多保持与软件实现相当的水平,部分研究如Li等(2024)和Lian等(2024)特别强调在提升速度的同时精度损失可忽略。
在面积效率方面,Lin等(2024)报告了66倍的面积效率提升,Feng等(2025)展示了2倍的面积效率提升。多项研究采用28nm工艺,表明该工艺节点已成为边缘AI处理器的主流选择,在性能和成本之间取得了良好平衡。
功耗方面的改进尤为显著。Jung等(2024)实现了99.89%的能耗降低,Shin等(2024)报告了99.51%的功耗减少。能效提升范围从Li等(2024)的3.1倍到Lin等(2025)的350倍不等。Wei等(2024)将功耗降至微瓦级(2.793μW),而Lim等(2025)和Lefebvre&Bol(2024)分别展示了38.5 TOPS/W和84.1 TOPS/W的能效,这些数据远超传统GPU实现(通常<10 TOPS/W)。
这一趋势背后的驱动因素包括专用硬件设计、近源计算架构、创新的电路技术和算法-硬件协同优化。多项研究采用计算内存(CIM)技术,利用模拟计算或混合信号处理,突破了传统数字计算的能效瓶颈。例如,Shin等(2024)的9T1C SRAM位元设计、Lefebvre&Bol(2024)的电荷域MAC和Hong等(2024)的忆阻器交叉开关均展示了非传统计算范式的优势。
尽管取得了显著进展,现有方案在"数据结构-算法-架构深度耦合优化"方面仍存在几个关键不足:
数据结构层面:大多数研究专注于单一数据表示形式(体素、点云、柱状体等),缺乏数据结构自适应机制。虽然Li等(2024)和Lim等(2025)分别引入了基于八叉树和四叉树的数据组织,但很少有研究探讨数据结构在算法执行过程中的动态演化。多模态融合场景中的统一数据表示仍是挑战,Feng等(2025)的工作只是初步尝试。
算法层面:大多数加速器针对特定算法高度优化,如Fang等(2024)针对体素化3D检测,Lian等(2024)针对点变换器,缺乏算法通用性和可重构性。虽然一些工作如Jung等(2024)集成了多个算法组件,但各组件间协同效率不高。此外,算法稀疏性和数据稀疏性的联合利用仍未充分探索,许多研究仅关注其中一个方面。
架构层面:存在明显的碎片化,不同功能模块(特征提取、点搜索、配准、SLAM等)通常需要不同加速器。端到端系统缺乏统一内存层次和调度策略,导致系统集成困难。虽然Feng等(2025)提出了芯片级并行性,但多芯片系统的互连和协同仍处于初级阶段。异构计算单元(如FPGA、ASIC、混合信号处理器)的高效融合也面临挑战。
深度耦合方面:尽管Li等(2024)的SimDiff等工作尝试算法-硬件协同设计,但真正的三层(数据结构-算法-架构)深度耦合优化仍然缺乏。多数研究在某一层做深度优化,而在其他层采用相对标准的方案。例如,Lian等(2024)深度优化了FPS-kNN架构,但数据结构方面相对传统;Fang等(2024)同时优化了体素表示和卷积计算,但缺乏针对硬件特性的算法自适应机制。
此外,现有研究普遍缺乏系统化的评估方法和统一的基准测试,难以进行公平比较。不同研究使用的性能指标(如帧率、TOPS/W、加速比)各不相同,实验设置也差异很大。很少有研究同时报告性能、能效、面积效率和精度等关键指标,更少有研究在真实应用场景下进行端到端评估。
这些不足突显了本项目研究的必要性与科学意义,特别是在构建统一、自适应的数据结构-算法-架构深度耦合优化框架方面的价值,这不仅可以超越单点优化的局限,也能为未来通用且高效的图像/点云处理加速器建立科学基础。
| 文献 | 任务类型 | 算法 | 主要优化策略 | 实现平台 |
|---|---|---|---|---|
| Fang et al., 2024 | 3D目标检测 | 统一CONV和TCONV计算方案(UCT)与结构化剪枝 | 基于哈希的分层体素器,基于脉动阵列的骨干网络加速器 | FPGA实现 |
| Lian et al., 2024 | 点云处理 | 基于分布感知的启发式距离计算 | 集成FPS-kNN架构,减少MaxPool和注意力-kNN层 | NVIDIA Jetson Orin |
| Li et al., 2024 | 点云加速 | 相似性感知差分点云神经网络(SD-PCNet) | 基于八叉树的密度自适应子树选择,并行原位处理 | 带HBM的ASICs |
| Jung et al., 2024 | LiDAR SLAM | 基于点神经网络(PNN)的分割、关键点提取和非线性优化 | 基于球坐标的分箱搜索,两步工作负载平衡,动态内存分配 | 专用处理器(LSPU) |
| Lefebvre & Bol, 2024 | 特征提取与ROI检测 | 电荷域4位加权MAC操作 | 混合信号处理,增量复位采样,电压下移 | UMC 0.11μm CMOS |
| Hong et al., 2024 | 角点检测 | 改进FAST角点检测算法 | 基于忆阻器交叉开关的内存计算 | PSpice仿真 |
| Wei et al., 2024 | SLAM轨迹滤波 | 基于神经群体动力学的推理 | 超轻量级数字宏与并行原位处理,时分复用PE设计 | 40nm工艺 |
| Shin et al., 2024 | 3D点云匹配 | 带扩张1D-CNN的时空预测 | 基于体素的分区,顶点聚类,基于CAM的计算内存 | 28nm CMOS |
| Chen et al., 2025 | 多种(综述论文) | 多种,包括定位求解器、神经图形处理 | 收发器、基于RRAM的推理引擎、电压调节器等硬件创新 | 多种 |
| He et al., 2025 | 视网膜形态视觉 | 一维特征提取(ODFE)算法 | 钙钛矿光探测器阵列与一晶体管结构 | 定制硬件 |
| Lin et al., 2025 | 自主机器人运动控制 | 基于采样的轨迹优化 | PE阵列,片上网络工作负载平衡 | 28nm CMOS |
| Feng et al., 2025 | BEV感知 | 可重构互连拓扑 | 基于CAM的映射单元,芯片级并行,封装上网络 | 28nm CMOS |
| Lim et al., 2025 | BEV检测 | 基于四叉树的工作负载管理,符号-幅度表示 | 虚拟柱状体,异构架构与专用核心 | 三星28nm CMOS |
基于对当前研究的分析,未来图像/点云处理加速器研究可能沿以下方向发展:
多模态统一表示:未来3-5年内,将出现能同时高效表示图像、点云和其他传感数据的统一数据结构,如可变分辨率网格或混合表示
动态自适应数据结构:2026年前后,将发展支持运行时重构的数据结构,根据数据特性和任务需求自动调整表示形式
时空融合表示:2027年之后,研究将融合空间和时间维度的数据表示,更好地捕捉物体运动和场景变化
超稀疏表示:随着自动驾驶感知距离增加,将出现针对超大规模、超稀疏点云的专用数据结构,关注点分布的长尾特性
神经形态算法:Wei等(2024)的工作已初步探索,未来2年内将加速发展基于脉冲神经网络(SNN)和神经群体动力学的点云处理算法
差分执行策略:类似Li等(2024)的工作将扩展到更多场景,开发能够仅处理变化部分的增量算法
任务自适应精度:未来将出现能根据场景复杂度动态调整计算精度的算法,在简单场景中使用低精度以节省能源
物理启发算法:2026年后,基于物理原理(如流体动力学、电磁场理论)的算法将用于点云配准和变形物体跟踪
传感-计算一体化:He等(2025)和Lefebvre&Bol(2024)的工作将进一步发展,消除传感器和处理器间的边界
混合计算范式:数字、模拟和量子计算的协同将成为研究热点,特别是针对特定点云操作的混合处理单元
多芯片协同系统:Feng等(2025)的工作将扩展,发展支持动态任务分配的芯片间通信和协同机制
通用可重构架构:未来3-5年内将出现针对点云处理的领域特定可重构架构(DSRA),结合FPGA的灵活性和ASIC的高效性
新型计算单元:基于新型器件如相变材料、忆阻器的计算单元将逐渐成熟并应用于商业系统
端到端加速系统:未来一年内将涌现更多像Jung等(2024)那样覆盖完整处理流程的端到端解决方案
多平台异构系统:将发展跨CPU、GPU、FPGA、ASIC的协同框架,根据任务特性动态分配资源
可进化硬件系统:2027年后可能出现支持在线学习和自适应的硬件系统,能根据环境和任务变化调整算法和架构
软硬件协同优化工具链:将开发自动化工具支持从算法到硬件的联合优化,降低设计门槛
随着这些技术路线的发展,图像/点云处理加速器将从当前的单点优化向系统化集成、从特定任务加速向通用高效处理、从静态设计向动态自适应系统转变,最终实现在极低功耗下的实时、高精度3D感知。
[1] H. Fang, Y. Tan, A. Ren, W. Zhuang, Y. Hua, Z. Qin, and D. Liu, "DSAV: A Deep Sparse Acceleration Framework for Voxel-Based 3-D Object Detection," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 613-626, Feb. 2025.
[2] Y. Lian, X. Yang, K. Hong, Y. Wang, N. Xu, and G. Dai, "A Point Transformer Accelerator With Distribution-Aware Heuristic Distance Calculation," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 751-764, Feb. 2025.
[3] Y. Li, M. Li, C. Chen, X. Zou, H. Shao, F. Tang, and K. Li, "SimDiff: Point Cloud Acceleration by Utilizing Spatial Similarity and Differential Execution," IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst., vol. 44, no. 2, pp. 568-581, Feb. 2025.
[4] J. Jung, S. Kim, B. Seo, W. Jang, S. Lee, J. Shin, D. Han, and K. J. Lee, "An Energy-Efficient Processor for Real-Time Semantic LiDAR SLAM in Mobile Robots," IEEE J. Solid-State Circuits, vol. 60, no. 1, pp. 112-124, Jan. 2025.
[5] M. Lefebvre and D. Bol, "MANTIS: A Mixed-Signal Near-Sensor Convolutional Imager SoC Using Charge-Domain 4b-Weighted 5-to-84-TOPS/W MAC Operations for Feature Extraction and Region-of-Interest Detection," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 934-948, Mar. 2025.
[6] Q. Hong, H. Jiang, P. Xiao, S. Du, and T. Li, "A Parallel Computing Scheme Utilizing Memristor Crossbars for Fast Corner Detection and Rotation Invariance in the ORB Algorithm," IEEE Trans. Comput., vol. 74, no. 3, pp. 996-1010, Mar. 2025.
[7] Z. Wei, B. Dong, Y. Su, Y. Wang, C. Yang, Y. Lu, C. Wang, T. T.-H. Kim, and Y. Zheng, "A 2.793 μW Near-Threshold Neuronal Population Dynamics Trajectory Filter for Reliable Simultaneous Localization and Mapping," IEEE Trans. Circuits Syst. I, vol. 72, no. 3, pp. 1269-1281, Mar. 2025.
[8] J. Shin, H. Jeong, S. Kim, S. Lee, and K. J. Lee, "C²IM-NN: A Low-Power 3D Point Clouds Matching Processor With 1D-CNN Prediction and CAM-Based In-Memory k-NN Searching," IEEE Trans. Circuits Syst. I, Reg. Papers, vol. 72, no. 3, pp. 1-12, 2025.
[9] W.-Z. Chen, B. H. Calhoun, C.-H. Yang, S. Sen, and J. Yang, "Introduction to the Special Section on the 2024 IEEE International Solid-State Circuits Conference (ISSCC)," IEEE J. Solid-State Circuits, vol. 60, no. 1, pp. 5-8, Jan. 2025.
[10] Z. He et al., "Perovskite retinomorphic image sensor for embodied intelligent vision," Sci. Adv., vol. 11, no. 1, pp. eads2834, Jan. 2025.
[11] I.-T. Lin et al., "A 28-nm 142-mW Motion-Control SoC for Autonomous Mobile Robots," IEEE J. Solid-State Circuits, pp. 1-12, 2025.
[12] X. Feng, X. Lin, H. Yang, Y. Liu, and W. Sun, "A Scalable BEV Perception Processor for Image/Point Cloud Fusion Applications Using CAM-Based Universal Mapping Unit," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 1002-1013, Mar. 2025.
[13] S. Lim, J. Heo, J. Yang, and J.-Y. Kim, "Hawkeye: A Point Cloud Neural Network Processor With Virtual Pillar and Quadtree-Based Workload Management for Real-Time Outdoor BEV Detection," IEEE J. Solid-State Circuits, vol. 60, no. 3, pp. 990-1001, Mar. 2025.