发表年份:2007
单位:ST Microelectronics, India; Computer Sciences Corporation, India
作者:Nisheeth Gupta, Nikhil Gupta
主要问题:实时图像配准的高计算需求与多尺寸图像处理效率低下。
设计与优化:
数据结构:参考/搜索帧数据序列并行处理
算法:优化NCCF、MSE和BST算法
硬件架构:基于脉动阵列的VLSI架构,含256个窗口处理器
电路层次:每个处理器集成2个MAC单元
关键问题:支持不同图像尺寸的实时配准,兼容多种算法。
里程碑:实现芯片级联扩展性能,实时处理兼容性。
遗留问题:大图像(>16×16像素)效率降低,级联成本高。
发表年份:2011
单位:中国科学院半导体研究所
作者:Wancheng Zhang, Qiuyu Fu, Nan-Jian Wu
主要问题:传统视觉系统I/O负载重,SIMD架构灵活性不足。
设计与优化:
数据结构:灵活像素-PE映射
算法:支持低/中/高级图像处理算法
硬件架构:集成CMOS传感器、SIMD PE阵列、行处理器和MPU
关键问题:高效处理复杂算法,动态增强图像质量。
里程碑:实现1000+ fps处理速度,支持手势识别和模式提取。
遗留问题:需动态重构PE/RP数量。
发表年份:2012
单位:台湾国立清华大学
作者:Feng-Cheng Huang, Shi-Yu Huang, Ji-Wei Ker, Yung-Chang Chen
主要问题:SIFT算法计算密集且内存需求大。
设计与优化:
数据结构:段缓冲方案减少50%内存需求
硬件架构:三级流水线加速关键点识别和描述生成
关键问题:实时处理VGA图像(<890个特征点)。
里程碑:最快全硬件SIFT加速器,33ms处理VGA图像。
遗留问题:高分辨率图像需进一步优化。
发表年份:2013
单位:塞浦路斯大学
作者:Christos Ttofis等
主要问题:立体视觉视差图计算资源密集。
设计与优化:
数据结构:二值边缘检测图像减少内存需求
算法:结合边缘检测与SAD块匹配
关键问题:实现1,280×1,024分辨率50 FPS视差计算。
里程碑:质量与局部方法相当,效率提升。
遗留问题:稀疏视差图需插值,复杂插方法影响性能。
发表年份:2014
单位:密歇根大学
作者:Dongsuk Jeon等
主要问题:微型飞行器需低功耗特征提取。
设计与优化:
算法:优化SURF算法,限制尺度空间
硬件架构:完全展开滤波器架构,低时钟频率(27 MHz)
关键问题:功耗2.7 mW,30 fps VGA处理。
里程碑:能效比提升3.5倍,适合MAV应用。
遗留问题:有效特征匹配数量减少30%。
(因篇幅限制,此处仅展示部分文献,完整列表见文末表格及参考文献)
图像/点云配准建模芯片加速领域呈现显著技术演进趋势:
算法-硬件协同设计:从早期单一功能加速(如SIFT、SLAM)转向跨层次优化(如PointAcc、FLNA),通过数据结构重构(如稀疏张量、八叉树)与硬件架构创新(如CIM、FPGA异构系统)实现性能突破。
能效优先:研究重点从单纯性能提升转向能效优化(如Navion 2mW VIO、GPCIM 28.3 TOPS/W),边缘计算需求推动低功耗设计(如亚阈值电路、模拟域处理)。
新型计算范式:忆阻器交叉开关(Hong et al., 2024)、混合信号近传感器处理(Lefebvre & Bol, 2024)等非传统架构涌现,突破冯·诺依曼瓶颈。
多模态与可扩展性:研究从单一任务加速(如kNN搜索)转向多模态融合(Feng et al., 2025)和端到端系统优化(Jung et al., 2024)。
科学意义:
推动实时3D感知在自动驾驶、机器人等领域的应用;
建立从数据结构到电路实现的全栈优化方法论;
促进边缘AI计算范式革新,支撑下一代智能系统。
特征提取:ASP-SIFT(2020)实现模拟域加速,处理速度3.26倍于数字方案;FLNA(2024)通过数据流解耦实现264倍加速。
点搜索:QuickFPS(2023)桶采样算法加速43.4倍;Shin et al.(2024)C²IM架构能效提升23倍。
配准算法:MOPED(2024)碰撞检查减少20倍;SLAM-CIM(2024)实现53.3 TFLOPS/W能效。
芯片架构:Eyeriss(2017)开创CNN数据流优化范式;GPCIM(2024)统一DNN与通用计算。
性能:处理速度从百fps(2019)提升至千fps(2024),加速比达100倍(PointAcc vs. Mesorasi)。
能效:从mW级(Navion, 2019)跃升至TOPS/W级(SLAM-CIM, 2024)。
面积:40nm工艺下核心面积优化至3.33mm²(Shen et al., 2021),28nm成主流节点。
数据结构:碎片化严重,缺乏统一表示;静态设计难以适应动态点云分布。
算法-架构协同:多数研究分层优化,未实现深度耦合(如Li et al., 2024优化架构但忽略数据特性)。
可扩展性:加速器多针对特定规模设计,超大规模点云(>100万点)处理能力受限。
系统集成:端到端流水线优化不足,跨任务协同效率低。
| 文献(作者+年份) | 任务类型 | 采用的算法 | 主要优化策略 | 实现平台 |
|---|---|---|---|---|
| Gupta et al. (2007) | 图像配准 | NCCF/MSE/BST | 脉动阵列架构,256窗口处理器 | 未说明 |
| Zhang et al. (2011) | 通用视觉处理 | 多级并行算法 | 可编程PE阵列,动态像素-PE映射 | 定制芯片 |
| Jeon et al. (2014) | 特征提取 | 优化SURF | 低功耗FIFO,圆形采样区域 | 28nm CMOS |
| Chen et al. (2017) | CNN加速 | 行静态数据流 | 四级内存层次,行程长度压缩 | 定制ASIC |
| Lin et al. (2021) | 点云处理 | 基于排序的统一映射 | 可配置缓存,时间融合 | TSMC 40nm |
| Jung et al. (2024) | LiDAR SLAM | 球坐标分箱搜索 | 两步工作负载平衡,伪随机数生成器 | 专用处理器 |
| Lefebvre & Bol (2024) | 特征提取 | 电荷域4位MAC | 混合信号处理,增量复位采样 | UMC 0.11μm CMOS |
| Feng et al. (2025) | BEV感知 | 可重构互连拓扑 | CAM映射单元,芯片级并行 | 28nm CMOS |
动态自适应:2026年前实现运行时根据点云密度自调整的八叉树/体素混合结构。
跨模态统一:2027年推出支持图像-点-语义融合的哈希-图混合表示。
精度可调:2025年普及动态精度控制(如BitNN位级计算),精度损失<1%。
自动化设计:2026年算法-硬件协同工具链成熟,支持NAS自动生成。
传感-计算一体:2025年钙钛矿视网膜传感器(He et al., 2025)量产,实现光速特征提取。
可重构异构:2027年推出支持SLAM、分割、检测的多任务DSRA架构。
神经形态计算:2026年基于忆阻器的脉冲神经网络实现生物级能效。
量子-光子融合:长期探索量子搜索加速点云配准,光子计算优化光流。
[1] N. Gupta and N. Gupta, "A VLSI Architecture for Image Registration in Real Time," IEEE Transactions on Circuits and Systems, 2007.
[2] W. Zhang et al., "A Programmable Vision Chip Based on Multiple Levels of Parallel Processors," IEEE Journal of Solid-State Circuits, 2011.
[3] D. Jeon et al., "An Energy Efficient Full-Frame Feature Extraction Accelerator With Shift-Latch FIFO in 28 nm CMOS," ISSCC, 2014.
[4] Y.-H. Chen et al., "Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks," IEEE Journal of Solid-State Circuits, 2017.
[5] Y. Lin et al., "PointAcc: Efficient Point Cloud Accelerator," MICRO, 2021.
[6] J. Jung et al., "An Energy-Efficient Processor for Real-Time Semantic LiDAR SLAM," IEEE Journal of Solid-State Circuits, 2024.
[7] M. Lefebvre and D. Bol, "MANTIS: A Mixed-Signal Near-Sensor Convolutional Imager SoC," IEEE Journal of Solid-State Circuits, 2024.
[8] X. Feng et al., "A Scalable BEV Perception Processor for Image/Point Cloud Fusion," IEEE Journal of Solid-State Circuits, 2025.
注:完整参考文献列表包含所有分析文献,此处因篇幅限制仅示例部分条目。