图像/点云配准建模芯片加速领域文献调研(2019-2021)

1. 文献时间顺序分析

2019年

1. Li, Z. et al. (2019) - An 879GOPS 243mW 80fps VGA Fully Visual CNN-SLAM Processor for Wide-Range Autonomous Exploration

2. Li, Z. et al. (2019) - A 1920×1080 25-Frames/s 2.4-TOPS/W Low-Power 6-D Vision Processor

3. Suleiman, A. et al. (2019) - Navion: A 2mW Fully Integrated Real-Time Visual-Inertial Odometry Accelerator

4. Xu, T. et al. (2019) - Tigris: Architecture and Algorithms for 3D Perception in Point Clouds

2020年

5. Fan, Z. et al. (2020) - ASP-SIFT: Using Analog Signal Processing Architecture to Accelerate Keypoint Detection

6. Pinkham, R. et al. (2020) - QuickNN: Memory and Performance Optimization of k-d Tree Based Nearest Neighbor Search

7. Sun, R. et al. (2020) - A Flexible and Efficient Real-Time ORB-Based Full-HD Image Feature Extraction Accelerator

8. Liu, Q. et al. (2020) - π-BA: Bundle Adjustment Hardware Accelerator Based on Distribution of 3D-Point Observations

9. Feng, Y. et al. (2020) - Mesorasi: Architecture Support for Point Cloud Analytics via Delayed-Aggregation

10. Chen, G. et al. (2020) - StereoEngine: An FPGA-Based Accelerator for Real-Time High-Quality Stereo Estimation

2021年

11. Bai, L. et al. (2021) - RoadNet-RT: High Throughput CNN Architecture and SoC Design for Real-Time Road Segmentation

12. Shen, H. et al. (2021) - A 91mW 90fps Super-Resolution Processor for Full HD Images

13. Kosuge, A. et al. (2021) - An SoC-FPGA-Based Iterative-Closest-Point Accelerator Enabling Faster Picking Robots

14. Lin, Y. et al. (2021) - PointAcc: Efficient Point Cloud Accelerator

15. Min, F. et al. (2021) - Dadu-Eye: A 5.3 TOPS/W, 30 fps/1080p High Accuracy Stereo Vision Accelerator

16. Wang, C. et al. (2021) - Real-Time Block-Based Embedded CNN for Gesture Classification on an FPGA

17. Zhao, S. et al. (2021) - HoloAR: On-the-fly Optimization of 3D Holographic Processing for Augmented Reality

18. Zhang, J. et al. (2021) - Point-X: A Spatial-Locality-Aware Architecture for Energy-Efficient Graph-Based Point-Cloud Deep Learning

19. Fan, H. et al. (2021) - High-Performance FPGA-based Accelerator for Bayesian Neural Networks

2. 国内外研究现状及发展动态分析

图像/点云配准建模芯片加速领域在过去几年经历了显著发展。从2019年到2021年的研究趋势表明,该领域正朝着更高效能、更低功耗和更高集成度的方向发展。

初期研究(2019年)主要聚焦于基础视觉SLAM和立体视觉算法的硬件实现,如Li等人的CNN-SLAM处理器和6D视觉处理器。随着研究深入,关注点逐渐转向专门针对点云处理的加速器设计,如Xu等人的Tigris架构。2020年研究开始更多关注内存优化和新型硬件架构,如Pinkham的QuickNN和Feng的Mesorasi。2021年则呈现出更多样化的研究方向,包括Lin等人的PointAcc和Zhang等人的Point-X等高效点云处理器,以及针对特定应用场景如AR/VR的加速器(Zhao的HoloAR)。

国际上,美国(密歇根大学、MIT、罗切斯特大学等)和中国(清华大学、中科院、中山大学等)是这一领域的主要研究力量。研究重点从早期的通用视觉算法加速逐渐转向更专业化的点云处理和图神经网络加速。

这一领域的科学意义在于:1)为资源受限设备上的高性能视觉感知提供了可能;2)通过数据结构、算法和硬件架构的协同设计,开创了新的系统优化范式;3)为自动驾驶、机器人和AR/VR等新兴应用领域提供了关键技术支持。

3. 文献调研综合结果

3.1 领域重要里程碑

图像特征提取加速器: 从2019年的Li等人提出的CNN-SLAM处理器到2020年Fan等人的ASP-SIFT和Sun等人的ORB加速器,图像特征提取领域实现了从传统算法到CNN深度学习方法的转变。特别是ASP-SIFT首次将模拟信号处理引入SIFT算法加速,实现了2.3kframes/s的处理速度,比数字实现快3.26倍以上。

点云处理与搜索加速: 点云处理领域取得了显著进展,从2019年Xu等人的Tigris架构开始,到2020年Pinkham等人的QuickNN和2021年Lin等人的PointAcc和Zhang等人的Point-X,实现了多个量级的性能提升。特别是PointAcc在S3DIS数据集上比Mesorasi快100倍且精度提高9.1%,标志着点云处理加速器的重大突破。

立体视觉与深度估计: 从2019年Li等人的6D视觉处理器到2020年Chen等人的StereoEngine和2021年Min等人的Dadu-Eye,立体视觉加速器逐渐成熟。特别是Dadu-Eye实现了5.3TOPS/W的能效,能够以30fps处理1080p图像,同时减少81%片外内存访问。

视觉导航与SLAM: 以2019年Suleiman等人的Navion和Li等人的CNN-SLAM处理器为代表,这一领域实现了微型设备上的实时视觉惯性里程计。Navion特别值得注意,作为首个完全集成的VIO系统,功耗仅2mW即可实现20fps的实时处理。

优化技术与框架: 2020-2021年间涌现了一系列创新优化技术,如Feng等人的延迟聚合、Zhang等人的空间局部性感知架构和Zhao等人的即时全息处理优化,这些技术不仅提高了性能,也开创了算法-架构协同设计的新思路。

3.2 性能、面积和功耗趋势

性能提升: 从2019年到2021年,加速器性能显著提升,处理速度从最初的几十fps增加到数百甚至上千fps。例如,PointAcc(2021)实现的吞吐量达到1307.1 inference/s,比GPU快4.5倍;RoadNet-RT(2021)实现了331 GOPS的计算能力,比先前方法快17.8倍。

面积优化: 芯片面积持续优化,以Shen等人(2021)的超分辨率处理器为例,在40nm工艺下核心面积仅3.33mm²,同时集成了3.11M门。SoCFPGA实现如Kosuge等人(2021)的ICP加速器也展示了资源高效利用。

功耗降低: 功耗方面取得重大突破,从早期几百毫瓦降至几十毫瓦甚至更低。Navion(2019)将VIO加速器功耗降至2mW;Min等人的Dadu-Eye(2021)实现5.3TOPS/W的能效比;HoloAR(2021)在全息处理上节能73%。功耗优化使这些加速器适用于电池供电设备。

3.3 现有方案的不足分析

尽管研究取得了显著进展,现有方案在"数据结构-算法-架构深度耦合优化"方面仍存在不足:

数据结构优化局限: 大多数研究采用针对特定算法优化的数据结构,如QuickNN的二分KD树和Point-X的空间局部性聚类,但缺乏能适应多种算法和应用场景的通用数据结构框架。这限制了加速器的灵活性和可重用性。

算法-架构协同不充分: 虽然如Mesorasi的延迟聚合和PointAcc的统一映射操作展示了算法-架构协同设计的潜力,但多数研究仍将算法优化和硬件设计视为相对独立的步骤,未充分挖掘深度协同的潜力。

内存访问优化不足: 许多研究都指出内存访问是主要瓶颈,如Dadu-Eye报告内存访问占总功耗74%,但现有优化主要集中在片上缓存和访问模式改进,缺乏从数据流和算法本质出发的系统性解决方案。

可扩展性挑战: 大多数加速器设计针对特定规模的问题和数据集优化,如处理固定分辨率图像或点数有限的点云,在处理规模不断增长的数据时(如高线数激光雷达或超高分辨率图像)可扩展性受限。

跨域任务处理能力不足: 现有加速器通常针对单一任务(如立体匹配、特征提取或点云处理),但实际应用往往需要协同处理多个视觉任务。缺乏能高效处理跨域任务的统一架构。

这些不足点突显了本研究方向的必要性和科学意义。通过深度探索数据结构-算法-架构的耦合优化,可以设计出更高效、更通用、更节能的加速器,为未来自动驾驶、机器人和AR/VR等领域提供关键技术支持。

4. 表格汇总:关键参数对比

文献任务类型采用的算法主要优化策略实现平台
Li et al. (2019) - CNN-SLAMSLAM加速CNN特征提取+BA优化分层内存组织、基于时间预测的特征匹配剪枝28nm HPC CMOS
Li et al. (2019) - 6D Vision光流与立体深度NG-SGM聚合交叉开关电路、64片上旋转图像缓冲区28nm CMOS
Suleiman et al. (2019) - Navion视觉惯性里程计关键帧VIO数据压缩、固定和动态稀疏性利用65nm CMOS
Xu et al. (2019) - Tigris点云配准两阶段KD树近似KD树搜索、并行化处理元素未说明
Fan et al. (2020) - ASP-SIFT图像特征提取模拟SIFT亚阈值电流模式电路、算法-硬件协同设计SMIC 180nm CMOS
Pinkham et al. (2020) - QuickNN近邻点搜索近似k-d树搜索树节点/点桶分区、写读高速缓存FPGA
Sun et al. (2020) - ORB特征提取ORB块式数据流、并行处理、近似计算Xilinx MPSoC
Liu et al. (2020) - π-BA捆绑调整Levenberg-Marquardt共观测优化、硬件友好微分方法嵌入式FPGA SoC
Feng et al. (2020) - Mesorasi点云分析延迟聚合邻居索引表、点特征表、DNN加速器扩展移动GPU/定制硬件
Chen et al. (2020) - StereoEngine立体视觉深度估计BNN-StereoBit二值神经网络、卷积核重用、网络剪枝FPGA
Bai et al. (2021) - RoadNet-RT道路分割轻量级CNN深度可分离卷积、非均匀核大小ZCU102 MPSoC FPGA
Shen et al. (2021) - Super-Resolution图像超分辨率RAISR内核重用(72%)、重叠补丁重用(91%)40nm CMOS
Kosuge et al. (2021) - ICP物体姿态估计层次图ICP动态结构重配置、并行距离计算Zynq UltraScale+ ZU9EG
Lin et al. (2021) - PointAcc点云处理基于排序的统一映射可配置缓存、时间融合、流稀疏计算TSMC 40nm
Min et al. (2021) - Dadu-Eye立体视觉DNN+光流融合层调度、池化/反卷积融合SMIC 40nm CMOS
Wang et al. (2021) - Gesture CNN手势分类块基CNN模块化特征图、动态定点量化FPGA
Zhao et al. (2021) - HoloAR全息处理中央凹渲染+近似根据物体距离/大小和用户焦点的选择性计算边缘GPU
Zhang et al. (2021) - Point-X点云深度学习SBFS图遍历空间局部性感知聚类、链式NoC28nm
Fan et al. (2021) - BNN贝叶斯神经网络蒙特卡洛Dropout中间层缓存、资源高效随机采样Intel Arria 10 SX660 FPGA

5. 技术路线图与趋势预测

基于现有研究成果与发展趋势,未来图像/点云配准建模芯片加速领域可能的技术路线主要集中在以下几个方面:

5.1 数据结构优化方向

自适应数据结构: 未来研究将更注重开发能根据数据特性自动调整的数据结构,如自适应空间分割树和动态图结构,以适应不同密度和分布的点云数据。Point-X的空间局部性感知聚类提供了这一方向的初步探索。

跨模态统一数据表示: 随着多模态感知的普及,将出现能同时高效表示和处理图像、点云、语义信息的统一数据结构,减少模态转换开销,提高系统整体效率。

稀疏数据压缩与索引: 针对点云极端稀疏性,将发展更先进的数据压缩和索引技术,如树结构索引与哈希相结合的混合索引方法,进一步减少内存需求和访问延迟。

5.2 算法轻量化趋势

神经网络架构搜索与剪枝: 自动化神经网络设计将应用于点云处理领域,为特定硬件平台设计最优网络架构,同时保持准确性。RoadNet-RT和StereoEngine的轻量级网络设计提供了有价值参考。

量化与二值化: 低精度表示将进一步推广,如Chen等人的二值神经网络和Wang等人的定点量化显示了在维持准确性的同时大幅减少计算和存储需求的潜力。未来可能出现更多针对点云特性优化的混合精度方案。

近似计算与质量感知处理: 类似Zhao的HoloAR,未来算法将更多采用"质量感知"处理策略,根据数据重要性和用户感知动态调整算法精度,以优化计算资源分配。

5.3 架构设计创新

领域特定加速器整合: 未来将出现同时支持图像特征提取、点云处理和SLAM等多任务的整合加速器架构,减少系统复杂性,提高资源利用率,如Dadu-Eye对DNN和光流处理的整合。

可重构计算架构: 适应不同应用场景需求的动态可重构架构将成为趋势,如Kosuge等人的部分重构FPGA设计为这一方向提供了初步探索。

近内存与近传感器计算: 为解决内存访问瓶颈,未来将更广泛采用近内存计算和传感器端处理,将计算直接移至数据生成和存储位置,大幅减少数据传输,如Fan的ASP-SIFT在传感器端的模拟处理。

5.4 跨层次协同优化

算法-架构协同设计自动化: 将出现自动化工具和框架,能够根据硬件约束自动调整算法参数,并根据算法特性配置硬件资源,实现真正的端到端优化,如Fan等人BNN加速器中的自动优化框架。

软硬件界面标准化: 为促进算法和硬件的解耦与重用,将建立统一的软硬件接口标准,简化异构计算系统的开发和部署。

多目标联合优化: 未来设计将更注重延迟、吞吐量、功耗、准确性多目标的联合优化,而非单一性能指标,实现更平衡的系统性能。

5.5 新型计算范式

类脑计算与稀疏处理: 借鉴人脑处理三维信息的机制,发展能高效处理稀疏不规则数据的神经形态计算架构,特别适用于动态点云处理。

混合精度模拟-数字处理: 扩展Fan等人ASP-SIFT的思路,将出现更多结合模拟信号处理高效性和数字处理灵活性的混合架构,特别适用于传感器前端处理。

端-边-云协同加速: 未来加速系统将跨越单一设备边界,形成端-边-云协同计算架构,根据不同节点的计算能力、能源供应和延迟需求动态分配任务。

这些技术趋势将共同推动图像/点云配准建模芯片加速进入新阶段,为自动驾驶、智能机器人和扩展现实等新兴应用提供更强大、更高效的感知处理能力。

6. 参考文献列表

[1] Z. Li et al., "An 879GOPS 243mW 80fps VGA Fully Visual CNN-SLAM Processor for Wide-Range Autonomous Exploration," in 2019 IEEE International Solid-State Circuits Conference (ISSCC), 2019, pp. 134-136.

[2] Z. Li, J. Wang, D. Sylvester, D. Blaauw, and H. S. Kim, "A 1920 × 1080 25-Frames/s 2.4-TOPS/W Low-Power 6-D Vision Processor for Unified Optical Flow and Stereo Depth With Semi-Global Matching," IEEE Journal of Solid-State Circuits, vol. 54, no. 4, pp. 1048-1058, 2019.

[3] A. Suleiman, Z. Zhang, L. Carlone, S. Karaman, and V. Sze, "Navion: A 2-mW Fully Integrated Real-Time Visual-Inertial Odometry Accelerator for Autonomous Navigation of Nano Drones," IEEE Journal of Solid-State Circuits, vol. 54, no. 4, pp. 1106-1119, 2019.

[4] T. Xu, B. Tian, and Y. Zhu, "Tigris: Architecture and Algorithms for 3D Perception in Point Clouds," in Proceedings of the 52nd Annual IEEE/ACM International Symposium on Microarchitecture, 2019, pp. 629-642.

[5] Z. Fan et al., "ASP-SIFT: Using Analog Signal Processing Architecture to Accelerate Keypoint Detection of SIFT Algorithm," IEEE Transactions on Very Large Scale Integration (VLSI) Systems, vol. 28, no. 1, pp. 198-211, 2020.

[6] R. Pinkham, S. Zeng, and Z. Zhang, "QuickNN: Memory and Performance Optimization of k-d Tree Based Nearest Neighbor Search for 3D Point Clouds," in 2020 IEEE International Symposium on High Performance Computer Architecture (HPCA), 2020, pp. 180-192.

[7] R. Sun et al., "A Flexible and Efficient Real-Time ORB-Based Full-HD Image Feature Extraction Accelerator," IEEE Transactions on Very Large Scale Integration (VLSI) Systems, vol. 28, no. 2, pp. 565-575, 2020.

[8] Q. Liu, S. Qin, B. Yu, J. Tang, and S. Liu, "π-BA: Bundle Adjustment Hardware Accelerator Based on Distribution of 3D-Point Observations," IEEE Transactions on Computers, vol. 69, no. 7, pp. 1083-1095, 2020.

[9] Y. Feng, B. Tian, T. Xu, P. Whatmough, and Y. Zhu, "Mesorasi: Architecture Support for Point Cloud Analytics via Delayed-Aggregation," in 2020 53rd Annual IEEE/ACM International Symposium on Microarchitecture (MICRO), 2020, pp. 1037-1050.

[10] G. Chen et al., "StereoEngine: An FPGA-Based Accelerator for Real-Time High-Quality Stereo Estimation With Binary Neural Network," IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, vol. 39, no. 11, pp. 4179-4190, 2020.

[11] L. Bai, Y. Lyu, and X. Huang, "RoadNet-RT: High Throughput CNN Architecture and SoC Design for Real-Time Road Segmentation," IEEE Transactions on Circuits and Systems I: Regular Papers, vol. 68, no. 2, pp. 704-714, 2021.

[12] H.-Y. Shen, Y.-C. Lee, T.-W. Tong, and C.-H. Yang, "A 91mW 90fps Super-Resolution Processor for Full HD Images," in 2021 IEEE International Solid-State Circuits Conference (ISSCC), 2021, pp. 66-68.

[13] A. Kosuge, K. Yamamoto, Y. Akamine, and T. Oshima, "An SoC-FPGA-Based Iterative-Closest-Point Accelerator Enabling Faster Picking Robots," IEEE Transactions on Industrial Electronics, vol. 68, no. 4, pp. 3567-3576, 2021.

[14] Y. Lin, Z. Zhang, H. Tang, H. Wang, and S. Han, "PointAcc: Efficient Point Cloud Accelerator," in MICRO-54: 54th Annual IEEE/ACM International Symposium on Microarchitecture, 2021, pp. 449-461.

[15] F. Min et al., "Dadu-Eye: A 5.3 TOPS/W, 30 fps/1080p High Accuracy Stereo Vision Accelerator," IEEE Transactions on Circuits and Systems I: Regular Papers, vol. 68, no. 10, pp. 4207-4220, 2021.

[16] C.-C. Wang et al., "Real-Time Block-Based Embedded CNN for Gesture Classification on an FPGA," IEEE Transactions on Circuits and Systems I: Regular Papers, vol. 68, no. 10, pp. 4182-4193, 2021.

[17] S. Zhao et al., "HoloAR: On-the-fly Optimization of 3D Holographic Processing for Augmented Reality," in MICRO-54: 54th Annual IEEE/ACM International Symposium on Microarchitecture, 2021, pp. 494-506.

[18] J.-F. Zhang and Z. Zhang, "Point-X: A Spatial-Locality-Aware Architecture for Energy-Efficient Graph-Based Point-Cloud Deep Learning," in MICRO-54: 54th Annual IEEE/ACM International Symposium on Microarchitecture, 2021, pp. 1078-1090.

[19] H. Fan, M. Ferianc, M. Rodrigues, H. Zhou, X. Niu, and W. Luk, "High-Performance FPGA-based Accelerator for Bayesian Neural Networks," in 2021 58th ACM/IEEE Design Automation Conference (DAC), 2021, pp. 1063-1068.