• 图像/点云配准建模芯片加速研究调研(-2018)

    一、按时间顺序的文献综述

    1. A VLSI Architecture for Image Registration in Real Time (2007)

    2. A Programmable Vision Chip Based on Multiple Levels of Parallel Processors (2011)

    3. High-Performance SIFT Hardware Accelerator for Real-Time Image Feature Extraction (2012)

    4. Edge-Directed Hardware Architecture for Real-Time Disparity Map Computation (2013)

    5. An Energy Efficient Full-Frame Feature Extraction Accelerator With Shift-Latch FIFO in 28 nm CMOS (2014)

    6. A 1000 fps Vision Chip Based on a Dynamically Reconfigurable Hybrid Architecture Comprising a PE Array Processor and Self-Organizing Map Neural Network (2014)

    7. Real-time 3D Reconstruction for FPGAs: A Case Study for Evaluating the Performance, Area, and Programmability Trade-offs of the Altera OpenCL SDK (2014)

    8. ConformalALU: A Conformal Geometric Algebra Coprocessor for Medical Image Processing (2015)

    9. A Sparse Coding Neural Network ASIC With On-Chip Learning for Feature Extraction and Encoding (2015)

    10. A 27 mW Reconfigurable Marker-Less Logarithmic Camera Pose Estimation Engine for Mobile Augmented Reality Processor (2015)

    11. Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks (2017)

    12. A 1920×1080 30fps 2.3TOPS/W Stereo-Depth Processor for Robust Autonomous Navigation (2017)

    13. An FPGA-Based Hardware Accelerator for Traffic Sign Detection (2017)

    14. Intelligent Energy-Efficient Systems at the Edge of IoT (2018)

    15. Reconfigurable Instruction-Based Multicore Parallel Convolution and Its Application in Real-Time Template Matching (2018)

    二、国内外研究现状及发展动态分析

    通过对2007-2018年间发表的15篇图像处理与计算机视觉硬件加速相关文献的分析,可以清晰地看到该领域的研究呈现以下几个重要趋势:

    首先,从技术演进角度看,早期研究(2007-2012)主要聚焦于传统图像处理算法的硬件实现,如图像配准(Gupta等,2007)和特征提取(Huang等,2012)。2014年前后,神经网络开始融入视觉处理芯片(Shi等,2014),标志着向AI驱动的计算机视觉硬件转变。到2017-2018年,深度学习硬件加速(Chen等,2017)成为主流,同时功耗优化和边缘计算也成为关键关注点(De等,2018)。

    其次,从性能指标看,处理分辨率从早期VGA级别发展到全高清(1920×1080),如Li等(2017)的立体深度处理器;处理速度从数十帧每秒提升到1000fps(Shi等,2014);功耗效率也有显著提升,如Jeon等(2014)的2.7mW特征提取加速器和Li等(2017)的2.3TOPS/W效率。

    第三,从设计策略看,有几条清晰的技术路线:(1)并行架构普遍采用,从SIMD阵列(Zhang等,2011)到多核并行处理(Zhou等,2018);(2)内存优化成为关键,通过重构数据布局、共享内存和压缩技术减少访存成本;(3)算法-硬件协同设计日益重要,如Chen等(2017)提出的行静态数据流和Jeon等(2014)的算法-架构协同优化;(4)可重构性成为硬件设计趋势,提高适应性和资源利用率。

    从地域分布看,该领域呈现多极化发展格局:美国(MIT、密歇根大学)在深度学习加速器和低功耗设计领域处于领先地位;中国(中科院、航天科技集团)在可重构视觉芯片和多核并行处理方面贡献显著;台湾在特征提取加速器方面有独特优势;韩国(KAIST)在移动AR处理器领域具有创新性。

    总体而言,图像/点云配准建模芯片加速领域正向更高效能(高分辨率、低延迟)、更低功耗、更强适应性和更深度AI集成方向发展,同时数据结构-算法-架构深度耦合优化成为提升性能与能效的关键路径。

    三、文献调研综合结果

    3.1 领域重要里程碑

    图像/点云配准建模芯片加速领域的发展可以通过几个关键里程碑来追踪:

    图像特征提取加速的里程碑始于Huang等(2012)提出的SIFT硬件加速器,通过三级流水线和段缓冲方案实现VGA图像33ms处理时间。随后Jeon等(2014)在SURF算法基础上提出能效优化,将功耗降至2.7mW,为资源受限平台如微型无人机打开可能性。Knag等(2015)将特征提取与神经网络结合,通过稀疏编码神经网络实现片上学习,标志着特征提取向神经网络方向演进。

    几何计算加速方面,Ttofis等(2013)针对视差图计算提出边缘导向架构,实现50fps的实时处理;Franchini等(2015)的ConformalALU为医学影像提供几何代数加速;Li等(2017)则将立体深度处理推进到全高清分辨率实时处理。

    点云处理相关的里程碑主要体现在Gautier等(2014)的实时3D重建FPGA实现,通过OpenCL优化ICP算法,为点云配准提供硬件加速方案。

    视觉神经网络处理器的发展始于Zhang等(2011)和Shi等(2014)提出的可编程视觉芯片,结合多级并行处理与神经网络;Chen等(2017)的Eyeriss则代表了针对卷积神经网络优化的专用硬件,通过行静态数据流实现能效优化。

    综合视觉处理平台方面,Hong等(2015)的无标记相机姿态估计引擎和Shi等(2017)的交通标志检测加速器展示了针对特定应用的综合优化方案。Zhou等(2018)的可重构多核并行卷积则代表了指令级优化与多核架构结合的方向。

    3.2 性能、面积和功耗提升趋势

    从2007年到2018年,图像/点云处理硬件加速器在性能、面积和功耗三方面都取得了显著进步:

    性能方面,处理速度从早期的实时(30fps)提升到超高速(1000fps,Shi等,2014);分辨率从VGA(640×480)扩展到全高清(1920×1080,Li等,2017);计算密度从GMAC/s级别提升到TOPS级别(Li等,2017的2.3TOPS/W)。

    面积效率方面,主要通过三个策略实现优化:(1)算法简化与硬件协同设计,如Jeon等(2014)将SURF算法简化为单个八度;(2)资源共享与动态重构,如Shi等(2014)提出PE阵列与SOM神经网络共享硬件;(3)存储层次优化,如Chen等(2017)的四级内存层次与数据重用策略。

    功耗优化方面,早期设计很少明确提及功耗数据,而2014年后功耗成为关键指标:Jeon等(2014)实现2.7mW的超低功耗特征提取;Hong等(2015)的27mW相机姿态估计引擎;Li等(2017)的2.3TOPS/W立体深度处理器。功耗优化主要通过低电压设计、专用电路(如对数运算单元)、数据压缩和减少内存访问实现。

    整体趋势表明,随着应用场景(如移动设备、无人机、AR/VR)对实时性和能效的需求增长,硬件加速器设计日益注重多目标优化,尤其是在保持或提升性能的同时大幅降低功耗。

    3.3 现有方案在"数据结构-算法-架构深度耦合优化"方面的不足

    尽管已有研究取得了显著进展,但在数据结构-算法-架构深度耦合优化方面仍存在几个明显不足:

    1. 数据结构适应性不足:大多数设计采用固定数据布局和处理流程,无法适应不同场景下数据特性的变化。例如,Li等(2017)的立体视觉处理器使用固定的块大小(50×50像素),无法根据场景复杂度动态调整。

    2. 算法与硬件反馈机制缺乏:现有设计多为单向优化,算法根据硬件特性优化,但缺乏运行时反馈机制使算法能根据硬件状态动态调整。这导致在不同输入数据和硬件状态下难以保持最佳效能。

    3. 存储层次与计算分离:尽管Chen等(2017)等工作尝试优化数据移动,但大多数设计仍未真正解决计算与存储分离的冯·诺依曼瓶颈。计算单元和存储单元之间的数据移动仍是能耗和性能瓶颈。

    4. 多模态融合能力有限:现有加速器多针对单一任务(如特征提取、立体匹配)优化,缺乏对多种传感数据(如图像、点云、IMU等)的融合处理能力,这限制了在复杂场景下的应用。

    5. 异构资源协同不足:虽然如Hong等(2015)和Zhou等(2018)的工作采用多种处理单元,但异构资源间的任务划分多为静态,难以根据工作负载动态调整,导致资源利用不均衡。

    6. 端到端优化不完整:大多数加速器专注于算法中间层次的优化,缺乏从传感器数据获取到最终决策的端到端优化视角,导致系统级效能受限。

    这些不足点突显了本项目研究的必要性与科学意义。通过探索数据结构-算法-架构深度耦合优化的新方法,尤其是动态适应、多模态融合和近存计算等方向,有望突破当前图像/点云配准建模加速器的性能瓶颈,为智能感知系统提供更高效的硬件支撑。

    四、关键参数对比表格

    文献任务类型采用的算法主要优化策略实现平台
    Gupta et al. (2007)图像配准NCCF, MSE, BST脉动阵列架构,256窗口处理器并行计算VLSI
    Zhang et al. (2011)通用视觉处理多级图像处理算法灵活像素-PE映射,多级并行处理,专用编译器0.18μm CMOS
    Huang et al. (2012)特征提取SIFT段缓冲方案,三级流水线架构未说明
    Ttofis et al. (2013)视差图计算边缘检测+块匹配(SAD)二值边缘检测图像,流水线并行设计Xilinx Virtex-5 FPGA
    Jeon et al. (2014)特征提取优化SURF圆形采样区域,匹配吞吐量架构,移位锁存器FIFO28nm LP CMOS
    Shi et al. (2014)通用视觉处理SOM神经网络+LVQ动态可重构PE阵列与SOM网络,多级并行性0.18μm CMOS
    Gautier et al. (2014)3D重建ICP, 体积集成内存访问优化,循环展开,内核专用化Altera Stratix V FPGA
    Franchini et al. (2015)医学图像处理共形几何代数简化几何运算代数公式,协处理架构Xilinx Virtex-5 FPGA
    Knag et al. (2015)特征提取编码SAILnet稀疏编码内存分区,两层混合网络,位串行处理65nm CMOS
    Hong et al. (2015)相机姿态估计无标记CPE推测执行,可重构数据排列层,对数处理元素65nm Logic CMOS
    Chen et al. (2017)CNN加速CNN行静态数据流,四级内存层次,零压缩技术未说明
    Li et al. (2017)立体深度处理SGM块处理,依赖解析对角扫描,超宽自定义SRAM40nm GP CMOS
    Shi et al. (2017)交通标志检测级联分类器重排数值运算,共享图像存储,自适应工作负载Xilinx ZC706 FPGA
    De et al. (2018)IoT边缘处理深度/脉冲神经网络超低电压操作,定制SRAM,自适应PVT补偿不适用(综述)
    Zhou et al. (2018)并行卷积模板匹配卷积可重构卷积指令,脉动MAC架构,数据块存储自研DSP(Revealer1601)

    五、技术路线图(Roadmap)

    基于对2007-2018年间该领域研究的分析,图像/点云配准建模芯片加速未来发展趋势可从以下几个方面预测:

    5.1 数据结构优化方向

    5.2 算法轻量化趋势

    5.3 架构设计创新

    5.4 应用领域拓展

    5.5 集成与系统级优化

    综上所述,图像/点云配准建模芯片加速的未来发展将呈现"更高性能、更低功耗、更强适应性、更深度集成"的总体趋势,同时数据结构-算法-架构的深度耦合优化将成为关键技术路径。

    六、参考文献列表

    [1] N. Gupta and N. Gupta, "A VLSI Architecture for Image Registration in Real Time," IEEE Transactions on Very Large Scale Integration (VLSI) Systems, vol. 15, no. 9, pp. 981-989, 2007.

    [2] W. Zhang, Q. Fu, and N.-J. Wu, "A Programmable Vision Chip Based on Multiple Levels of Parallel Processors," IEEE Journal of Solid-State Circuits, vol. 46, no. 9, pp. 2132-2147, 2011.

    [3] F.-C. Huang, S.-Y. Huang, J.-W. Ker, and Y.-C. Chen, "High-Performance SIFT Hardware Accelerator for Real-Time Image Feature Extraction," IEEE Transactions on Circuits and Systems for Video Technology, vol. 22, no. 3, pp. 340-351, 2012.

    [4] C. Ttofis, S. Hadjitheophanous, A. S. Georghiades, and T. Theocharides, "Edge-Directed Hardware Architecture for Real-Time Disparity Map Computation," IEEE Transactions on Computers, vol. 62, no. 4, pp. 690-704, 2013.

    [5] D. Jeon, M. B. Henry, Y. Kim, I. Lee, Z. Zhang, D. Blaauw, and D. Sylvester, "An Energy Efficient Full-Frame Feature Extraction Accelerator With Shift-Latch FIFO in 28 nm CMOS," IEEE Journal of Solid-State Circuits, vol. 49, no. 5, pp. 1271-1284, 2014.

    [6] C. Shi, J. Yang, Y. Han, Z. Cao, Q. Qin, L. Liu, N.-J. Wu, and Z. Wang, "A 1000 fps Vision Chip Based on a Dynamically Reconfigurable Hybrid Architecture Comprising a PE Array Processor and Self-Organizing Map Neural Network," IEEE Journal of Solid-State Circuits, vol. 49, no. 9, pp. 2067-2082, 2014.

    [7] Q. Gautier, A. Shearer, J. Matai, D. Richmond, P. Meng, and R. Kastner, "Real-time 3D Reconstruction for FPGAs: A Case Study for Evaluating the Performance, Area, and Programmability Trade-offs of the Altera OpenCL SDK," in 2014 International Conference on Field-Programmable Technology (FPT), pp. 326-329, 2014.

    [8] S. Franchini, A. Gentile, F. Sorbello, G. Vassallo, and S. Vitabile, "ConformalALU: A Conformal Geometric Algebra Coprocessor for Medical Image Processing," IEEE Transactions on Computers, vol. 64, no. 4, pp. 955-970, 2015.

    [9] P. Knag, J. K. Kim, T. Chen, and Z. Zhang, "A Sparse Coding Neural Network ASIC With On-Chip Learning for Feature Extraction and Encoding," IEEE Journal of Solid-State Circuits, vol. 50, no. 4, pp. 1070-1079, 2015.

    [10] I. Hong, G. Kim, Y. Kim, D. Kim, B.-G. Nam, and H.-J. Yoo, "A 27 mW Reconfigurable Marker-Less Logarithmic Camera Pose Estimation Engine for Mobile Augmented Reality Processor," IEEE Journal of Solid-State Circuits, vol. 50, no. 11, pp. 2513-2523, 2015.

    [11] Y.-H. Chen, T. Krishna, J. S. Emer, and V. Sze, "Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks," IEEE Journal of Solid-State Circuits, vol. 52, no. 1, pp. 127-138, 2017.

    [12] Z. Li, Q. Dong, M. Saligane, B. Kempke, S. Yang, Z. Zhang, R. Dreslinski, D. Sylvester, D. Blaauw, and H. S. Kim, "A 1920×1080 30fps 2.3TOPS/W Stereo-Depth Processor for Robust Autonomous Navigation," in 2017 IEEE International Solid-State Circuits Conference (ISSCC), pp. 62-63, 2017.

    [13] W. Shi, X. Li, Z. Yu, and G. Overett, "An FPGA-Based Hardware Accelerator for Traffic Sign Detection," IEEE Transactions on Very Large Scale Integration (VLSI) Systems, vol. 25, no. 4, pp. 1362-1372, 2017.

    [14] V. De, D. Sylvester, J. Myers, J. Deguchi, S. Shiratake, and I. Verbauwhede, "Intelligent Energy-Efficient Systems at the Edge of IoT," in 2018 IEEE International Solid-State Circuits Conference (ISSCC), pp. 502-504, 2018.

    [15] Q. Zhou, L. Yang, and X. Yan, "Reconfigurable Instruction-Based Multicore Parallel Convolution and Its Application in Real-Time Template Matching," IEEE Transactions on Computers, vol. 67, no. 12, pp. 1780-1793, 2018.