研究表明,图像和点云配准建模芯片领域已取得显著进展,尤其是在特征提取、点搜索和配准算法加速器方面。
证据倾向于认为,性能、面积和功耗指标近年来持续优化,但数据结构-算法-硬件架构的深度耦合仍存在不足。
未来可能突破方向包括更高效的点云数据结构、更灵活的动态定点技术和低功耗芯片设计。
2007-2018年:基础阶段
早期研究聚焦于图像处理的基础任务,如Gupta和Gupta(2007)提出的实时图像配准VLSI架构,采用归一化交叉相关等方法奠定基础。Zhang等(2011)开发可编程视觉芯片,支持多种并行处理,达到1000fps的目标跟踪。Huang等(2012)推出SIFT硬件加速器,实现VGA帧33ms处理,标志特征提取的实时化。Ttofis等(2013)结合边缘检测优化视差图计算,达到50 FPS高分辨率处理。Jeon等(2014)为微型飞行器设计低功耗特征提取加速器,Shi等(2014)引入混合架构视觉芯片,处理速度超1000fps。后续研究如Franchini等(2015)开发医疗影像几何代数协处理器,Knag等(2015)实现稀疏编码神经网络ASIC,Hong等(2017)低功耗相机姿态估计引擎,Chen等(2017)推出Eyeriss CNN加速器,Li等(2017)高性能立体深度处理器,Shi等(2017)FPGA交通标志检测加速器,De等(2018)探讨IoT边缘低功耗系统,Zhou等(2018)空间应用可重构卷积指令等,逐步提升实时性和能效,但大尺寸图像效率和芯片成本问题仍未解决。
2019-2021年:复杂任务扩展
中期研究转向点云和深度学习,Li等(2019)实现全视觉CNN-SLAM单芯片处理,Li等(2019)统一6D视觉处理器支持实时密集深度和光流,Suleiman等(2019)低功耗视觉-惯性里程计加速器,Xu等(2019)Tigris加速点云配准,Fan等(2020)ASP-SIFT模拟信号处理加速关键点检测,Pinkham等(2020)优化k-d树搜索,Sun等(2020)实时ORB特征提取,Liu等(2020)π-BA硬件加速捆绑调整,Chen等(2020)StereoEngine二进制神经网络立体估计,Bai等(2021)RoadNet-RT实时道路分割,Shen等(2021)低功耗超分辨率处理器,Kosuge等(2021)SoC-FPGA ICP加速器,Lin等(2021)PointAcc点云加速器,Min等(2021)Dadu-Eye高精度立体视觉加速器,Wang等(2021)FPGA实时手势分类CNN,Zhao等(2021)AR全息处理优化,Zhang等(2021)Point-X空间局部性点云深度学习,Fan等(2021)贝叶斯神经网络FPGA加速器,扩展至复杂3D感知,但环境适应性和大数据集扩展性需进一步研究。
2022-2023年:高级优化与应用
近期研究聚焦点云处理和能效,Kim等(2022)低功耗点云语义分割处理器,Wang等(2022)块匹配立体匹配FPGA处理器,He等(2022)SRAM-PIM超低功耗视觉3D感知,Li等(2022)Eventor事件相机多视图立体加速器,Krishnan等(2022)UAV专用SoC自动设计,Ying等(2022)边缘设备点云压缩,Wang等(2022)ViA视觉变换器FPGA加速器,Zheng等(2022)汽车系统传感器数据快速访问,Chiu等(2022)Chaos LiDAR RGB-D人脸分类,Liu等(2022)SIFT特征提取高帧率视频加速器,He等(2023)LiDAR点云移动对象分割,Tan等(2023)SLAM可重构协处理器,Chen等(2023)ParallelNN并行八叉树最近邻搜索,CEGMA(2023)图匹配网络加速,Shen等(2023)40nm低功耗超分辨率加速器,Sun等(2023)LiDAR系统深度完成神经网络SoC,Chang等(2023)HDSuper轻量超分辨率加速器,Liu等(2023)机器人定位能效加速器,Lyu等(2023)FLNA点云特征学习数据流解耦,Han等(2023)QuickFPS大尺度点云最远点采样,Yu等(2023)低延迟点云处理框架,强调能效和实时性,但大场景和动态数据处理仍需优化。
图像/点云配准建模芯片领域取得里程碑进展,包括特征提取加速器(如SIFT、ORB硬件实现),点搜索加速器(如KD树、八叉树优化),配准算法加速器(如SLAM、捆绑调整硬件),以及更高性能、更小面积、更低功耗的新实现(如40nm CMOS超分辨率加速器)。现有成果特点是算法-硬件协同优化,性能提升显著,功耗降低,如Li等(2019)CNN-SLAM单芯片243mW,Han等(2023)QuickFPS比GPU快43.4倍能效高。但数据结构-算法-硬件深度耦合不足,点云稀疏性、大数据集实时性、动态场景适应性仍为瓶颈。科学趋势如AI边缘计算、感存算一体化推动本项目必要性,旨在提升3D感知能效,助力自动驾驶、AR/VR应用,科学意义在于推动硬件-算法协同进化。
本报告基于2007-2023年文献,系统分析图像/点云配准建模芯片发展,聚焦特征提取、点搜索、配准算法加速器及性能优化,揭示领域脉络与未来趋势。
特征提取加速器及芯片:Huang等(2012)SIFT硬件加速器33ms处理VGA帧,Fan等(2020)ASP-SIFT模拟处理提升3.26倍速度,Liu等(2022)SIFT高帧率视频能效优化。
点搜索加速器及芯片:Xu等(2019)Tigris点云配准77.2倍GPU快,Chen等(2023)ParallelNN八叉树搜索107.7倍CPU快。
配准算法加速器及芯片:Gupta等(2007)实时图像配准VLSI,Liu等(2020)π-BA捆绑调整7.56倍ARM快,Tan等(2023)SLAM可重构协处理器。
更高性能、更小面积、更低功耗新实现:Shen等(2023)40nm超分辨率加速器91mW 90fps,Lyu等(2023)FLNA点云特征学习能效1.21倍GPU。
领域从图像处理基础逐步扩展至点云3D感知,硬件优化从FPGA到ASIC深化,能效和实时性提升显著。未来需解决大数据集扩展性和动态场景适应性,推动感存算一体化和低功耗设计。
| 文献(作者+年份) | 研究任务 | 所用算法及核心思路 | 优化策略(数据结构/算法/硬件架构/电路层次) | 流片工艺或FPGA平台 |
|---|---|---|---|---|
| Gupta and Gupta (2007) | 图像配准 | NCCF, MSE, BST | 脉冲阵列VLSI | 未说明 |
| Zhang et al. (2011) | 高级图像处理 | SIMD PE阵列, RP阵列, SOM | 混合架构, 动态重配置 | 中国科学院半导体研究所 |
| Huang et al. (2012) | 特征提取(SIFT) | SIFT | 段缓冲方案, 三级流水线 | 未说明 |
| Ttofis et al. (2013) | 视差图计算 | 边缘检测+SAD | EDU和DCU流水线, 并行设计 | 塞浦路斯大学 |
| Jeon et al. (2014) | 特征提取(SURF) | 优化SURF | 移位锁存FIFO, 圆形采样区 | 密歇根大学 |
| Shi et al. (2014) | 高级图像处理 | PE阵列, RP阵列, SOM | 动态重配置, 硬件资源共享 | 中国科学院半导体研究所 |
| Gautier et al. (2014) | 实时3D重建 | ICP, 体积整合 | 数据结构修改, OpenCL优化 | 加州大学圣地亚哥分校 |
| Franchini et al. (2015) | 医疗影像几何运算 | 共形几何代数 | ConformalALU协处理器 | 巴勒莫大学 |
| Knag et al. (2015) | 特征提取与编码 | 稀疏编码神经网络 | 权重内存分割, 本地学习规则 | 密歇根大学 |
| Hong et al. (2015) | 相机姿态估计 | 推测执行, RDL | 对数处理元件, 低功耗设计 | KAIST |
| Chen et al. (2017) | 深度卷积神经网络 | 行固定数据流 | 四级内存层次, NoC网络 | MIT |
| Li et al. (2017) | 立体深度处理 | SGM | 行扫描融合层调度, 超宽SRAM | 密歇根大学 |
| Shi et al. (2017) | 交通标志检测 | 级联分类器 | 重叠图像块共享存储, 迭代过滤 | 卡内基梅隆大学 |
| De et al. (2018) | 智能能效系统 | 多种 | 低功耗SoC, 模拟前端, 无线电路 | Intel |
| Zhou et al. (2018) | 卷积与模板匹配 | 可重构卷积指令 | 脉动MAC架构, NoC网络 | 中国航天科技集团 |
| Li et al. (2019) | 视觉CNN-SLAM | CNN, PnP, BA | 分层内存组织, 地址哈希 | 密歇根大学 |
| Li et al. (2019) | 6D视觉处理 | 光流, SGM | 邻导SGM, 深度流水线架构 | 密歇根大学 |
| Suleiman et al. (2019) | 视觉-惯性里程计 | VIO | 高效内存层次, 数据压缩 | MIT |
| Xu et al. (2019) | 点云配准 | KD树搜索 | 二级KD树结构, 近似搜索 | 罗切斯特大学 |
| Fan et al. (2020) | 关键点检测(SIFT) | 模拟信号处理 | 亚阈值电流模式电路 | 清华大学 |
| Pinkham et al. (2020) | k-d树最近邻搜索 | 内存优化方案 | 两个小型片上缓存 | 密歇根大学 |
| Sun et al. (2020) | ORB特征提取 | 块数据流 | 八度并行处理, 时间共享DRAM | 上海交通大学 |
| Liu et al. (2020) | 捆绑调整 | 共观察优化 | 硬件友好微分方法 | 天津大学 |
| Feng et al. (2020) | 点云分析 | 延迟聚合 | 邻居索引表, 点特征表 | 罗切斯特大学 |
| Chen et al. (2020) | 立体估计 | 二进制神经网络 | BNN立体估计算法StereoBit | 中山大学 |
| Bai et al. (2021) | 道路分割 | CNN | 两分支提取空间和上下文信息 | 伍斯特理工学院 |
| Shen et al. (2021) | 超分辨率 | RAISR | 旋转SRAM组, 动态填充 | 国立台湾大学 |
| Kosuge et al. (2021) | ICP加速 | 层次图结构 | 多分辨率ICP, 硬件电路设计 | 日立有限公司 |
| Lin et al. (2021) | 点云加速 | 稀疏张量基于 | 映射单元, 内存管理单元, 矩阵单元 | MIT |
| Min et al. (2021) | 立体视觉 | 成本估计, 光流 | 超流水线MAC阵列, 专用模块 | 中国科学院计算技术研究所 |
| Wang et al. (2021) | 手势分类 | 嵌入式CNN | 模块化特征图, 2的幂通道数 | 国立清华大学 |
| Zhao et al. (2021) | AR全息处理 | 注视点渲染, Intra-Holo近似 | 边缘GPU平台 | 宾夕法尼亚州立大学 |
| Zhang et al. (2021) | 图基于点云深度学习 | 空间局部性聚类 | 推测广度优先搜索, fpsum重用 | 密歇根大学 |
| Fan et al. (2021) | 贝叶斯神经网络 | 部分贝叶斯推断, MCD | 中间层缓存 | 帝国理工学院 |
| Kim et al. (2022) | 点云语义分割 | 图卷积网络 | 稀疏分组, 扩张图卷积 | KAIST |
| Wang et al. (2022) | 立体匹配 | 块匹配 | 稀疏Census特征表示 | 上海科技大学 |
| He et al. (2022) | 视觉3D感知 | PIM友好数据布局 | 位并行可重配置SRAM-PIM架构 | 中国科学院计算技术研究所 |
| Li et al. (2022) | 事件相机多视图立体 | 视差空间图像 | 混合数据量化, 专用硬件 | 北京航空航天大学 |
| Krishnan et al. (2022) | UAV专用SoC设计 | 强化和监督学习 | 贝叶斯优化 | 哈佛大学 |
| Ying et al. (2022) | 点云压缩 | Morton码辅助帧内压缩 | 帧内和帧间压缩 | 宾夕法尼亚州立大学 |
| Wang et al. (2022) | 视觉变换器加速 | 适当分区策略 | 半层映射, 吞吐量分析 | 中国科学技术大学 |
| Zheng et al. (2022) | 传感器数据访问优化 | 统一访问模块, 前处理器模块 | 硬件协议解析, 前处理 | 重庆大学 |
| Chiu et al. (2022) | Chaos LiDAR人脸分类 | 嵌入式CNN | Chaos LiDAR子系统, 信号采集, 相关处理器 | 国立清华大学 |
| Liu et al. (2022) | SIFT特征提取视频 | 优化算法 | 旋转SRAM组, 圆形区域和极坐标方法 | 华中科技大学 |
| He et al. (2023) | LiDAR点云移动对象分割 | 稀疏张量基于 | AR-SI理论新特征 | 香港科技大学 |
| Tan et al. (2023) | SLAM算法 | 可重构架构 | 分解SLAM为基本操作 | 南方科技大学 |
| Chen et al. (2023) | 点云最近邻搜索 | 并行八叉树基于 | 轨迹编码, 深度信息 | 上海交通大学 |
| CEGMA (2023) | 图匹配网络 | 弹性匹配元数据结构 | 弹性匹配过滤器, 跨图协调器 | 未说明 |
| Shen et al. (2023) | 超分辨率 | RAISR | 补丁数据重用方案, 内核压缩 | 国立台湾大学 |
| Sun et al. (2023) | 深度完成神经网络 | 全填充数据流管理引擎 | 硬件平铺协处理器 | 复旦大学 |
| Chang et al. (2023) | 超分辨率 | 轻量深度可分离卷积块 | 统一计算核心, 高效分配映射 | 电子科技大学 |
| Liu et al. (2023) | 机器人定位 | 可配置硬件, 可重构块 | 数据流解耦图 | 北京航空航天大学 |
| Lyu et al. (2023) | 点云特征学习 | 数据流解耦 | 二级树数据结构, 桶基于FPS算法 | 上海交通大学 |
| Han et al. (2023) | 最远点采样 | 几何感知微分算法 | 几何感知邻居和聚合组生成 | 华南理工大学 |
| Yu et al. (2023) | 点云处理 | 轻量网络(LPN) | 可重构计算核心, 部分并行计算 | 北京航空航天大学 |
未来可能技术突破方向包括:
更多层次的“感存算一体化”,如He等(2022)SRAM-PIM架构。
更灵活的动态定点技术,适应动态场景。
更高效的点云数据结构与并行调度策略,如Chen等(2023)ParallelNN。
低功耗型芯片设计范式,满足边缘设备需求。
Gupta and Gupta 2007 VLSI architecture for image registration
Franchini et al. 2015 conformal geometric algebra coprocessor
Li et al. 2017 stereo-depth processor for autonomous navigation
Shi et al. 2017 FPGA-based traffic sign detection accelerator
Zhou et al. 2018 reconfigurable multicore parallel convolution
Suleiman et al. 2019 real-time visual-inertial odometry accelerator
Xu et al. 2019 Tigris architecture for 3D perception point clouds
Fan et al. 2020 ASP-SIFT analog signal processing architecture
Pinkham et al. 2020 QuickNN memory optimization k-d tree search
Sun et al. 2020 real-time ORB-based full-HD feature extraction
Feng et al. 2020 Mesorasi architecture support point cloud analytics
Chen et al. 2020 StereoEngine FPGA-based stereo estimation accelerator
Bai et al. 2021 RoadNet-RT high throughput CNN road segmentation
Kosuge et al. 2021 SoC-FPGA-based ICP accelerator picking robots
Min et al. 2021 Dadu-Eye high accuracy stereo vision accelerator
Wang et al. 2021 real-time block-based embedded CNN gesture classification
Zhao et al. 2021 HoloAR on-the-fly optimization 3D holographic processing
Zhang et al. 2021 Point-X spatial-locality-aware point-cloud deep learning
Fan et al. 2021 high-performance FPGA-based Bayesian neural networks
Kim et al. 2022 low-power graph convolutional network processor point cloud
Wang et al. 2022 block patchmatch-based stereo matching processor FPGA
He et al. 2022 processing-in-SRAM acceleration ultra-low power visual 3D perception
Li et al. 2022 Eventor efficient event-based monocular multi-view stereo FPGA
Krishnan et al. 2022 automatic domain-specific SoC design autonomous UAVs
Ying et al. 2022 pushing point cloud compression to the edge
Wang et al. 2022 ViA novel vision-transformer accelerator FPGA
Zheng et al. 2022 SENTunnel fast path sensor data access automotive
Chiu et al. 2022 Chaos LiDAR RGB-D face classification system embedded CNN
Liu et al. 2022 energy-efficient SIFT feature extraction accelerator video
He et al. 2023 EmPointMovSeg sparse tensor-based moving-object segmentation LiDAR
Tan et al. 2023 reconfigurable coprocessor simultaneous localization mapping FPGA
Chen et al. 2023 ParallelNN parallel octree-based nearest neighbor search accelerator
CEGMA 2023 coordinated elastic graph matching acceleration graph matching networks
Shen et al. 2023 40-nm 91-mW 90-fps learning-based full HD super-resolution accelerator
Sun et al. 2023 40nm 2TOPS/W depth-completion neural network accelerator SoC LiDAR
Chang et al. 2023 HDSuper algorithm-hardware co-design light-weight high-quality super-resolution
Liu et al. 2023 energy efficient runtime reconfigurable accelerator robotic localization
Lyu et al. 2023 FLNA energy-efficient point cloud feature learning accelerator dataflow decoupling
Yu et al. 2023 low-latency framework algorithm-hardware co-optimization 3-D point cloud