高保真深度图重建系统：RGB引导的超分辨率CNN与交叉校准的Chaos LiDAR

摘要

高保真3D模型对于沉浸式虚拟与增强现实（VR/AR）应用至关重要。然而，当前3D记录设备在多种场景下（如光线昏暗环境、长距离测量和大规模物体）性能受限，导致其在室内场景中的适用性受阻。本研究提出一种深度图重建系统，将RGB引导的深度图超分辨率卷积神经网络（CNN）集成到独立的Chaos LiDAR深度传感器中。该系统在多种场景下提供高度准确的深度估计，特别适用于室内光线昏暗或距离从4 m到6 m的场景。我们针对最大化系统重建深度图质量提出了两个设计挑战。首先，使用两阶段校准管道解决RGB-深度传感器间的错位问题。其次，通过生成大规模合成数据集并采用迁移学习，解决缺乏大规模真实世界LiDAR数据集的问题。实验结果表明，我们提出的系统在主观视觉感知、精度和深度估计密度方面显著优于商用RGB-D记录设备RealSense D435i，使其成为通用室内场景记录的有前景的解决方案。

作者

Yu-Chun Ding 电气工程系，国立清华大学，台湾新竹 ORCID: 0000-0001-9004-3597

Chia-Yu Chang 电气工程系，国立清华大学，台湾新竹

Pei-Rong Li 电气工程系，国立清华大学，台湾新竹

Chao-Tsung Huang 电气工程系，国立清华大学，台湾新竹 ORCID: 0000-0002-9173-520X

Yung-Chen Lin 电气工程系，国立清华大学，台湾新竹

Tsung Chen 电气工程系，通讯工程学院，国立清华大学，台湾新竹 ORCID: 0009-0008-9492-3784

Wei-Lun Lin 电气工程系，国立清华大学，台湾新竹 ORCID: 0009-0003-5187-0495

Cheng-Ting Lee 电气工程系，光子技术学院，国立清华大学，台湾新竹

Fan-Yi Lin 电气工程系，光子技术学院，国立清华大学，台湾新竹 ORCID: 0000-0003-2160-9715

Yuan-Hao Huang 电气工程系，通讯工程学院，国立清华大学，台湾新竹 ORCID: 0000-0001-6781-7312

出版信息

期刊: IEEE Access 年份: 2025 卷: 13 页码: 19118-19131 DOI: 10.1109/ACCESS.2025.3532621 文章编号: 10849544 ISSN: Electronic ISSN: 2169-3536

指标

论文引用数: 1 总下载量: 468

资助

台湾科学技术部（资助：MOST 110-2218-E-007-046、MOST 110-2218-E-007-047 和 MOST 110-2218-E-007-050）

关键词

IEEE 关键词: 激光雷达, 混沌, 传感器, 镜面, 微机电设备, 校准, 三维显示, 摄像机, 光学衰减器, 卷积神经网络

Index Terms: 卷积神经网络, 深度图, 超分辨率卷积神经网络, 几乎, 迁移学习, 大规模数据集, 真实世界数据集, 深度相机, 深度估计, 数据集缺乏, 沉浸式虚拟现实, 增强现实应用, LiDAR 数据集, 高分辨率, 高精度, 点云, 卷积神经网络模型, RGB 图像, 投影矩阵, 原始深度, 双三次插值, 3D 网格, RGB 相机, 简谐振子, 快速轴, 线性模式, 内参矩阵, 共振模式, RGB-D 数据集

作者关键词： 深度图超分辨率，混沌激光雷达，深度感知

未定义

SECTION I. 引言

高保真 3D 模型在众多新兴应用的持续发展中至关重要，例如虚拟现实和增强现实，这些应用需要在较长距离上以高精度提供稠密深度信息，以提升沉浸感。然而，现有的 3D 成像方法在同时实现高空间分辨率和准确距离精度方面面临挑战。

3D 成像方法主要分为两类：被动和主动。被动方法使用多台摄像机模拟人类视觉，通过在立体图像中匹配特征并利用三角测量（即视差）来计算深度值 ¹, ², ³, ⁴。被动方法可以使用低成本硬件（例如市售摄像机）而不需要额外光学设备来提供高空间分辨率。然而，视差估计算法计算量大，深度值误差随检测范围的增加呈二次增长。被动方法也容易受到照明和噪声影响，降低其在室内环境中的性能。

主动 3D 成像方法涉及向目标对象发送光线，然后观察其反射信号。该方法能够在不良照明条件下获取高精度深度估计。主动方法可进一步分为两类：结构光（使用空间域中的信号调制）和飞行时间（使用时间域中的信号调制）。结构光方法在物体表面投射预定义的平面图案，然后根据观察到的图案畸变计算深度值。这些方法能够在近距离提供高精度深度信息和高空间分辨率；然而，它们在可测量物体尺寸和距离方面受到限制，给一般室内应用带来约束。飞行时间方法 ⁵, ⁶, ⁷, ⁸ 通过测量脉冲光束从发射器到目标表面再返回传感器所需的时间来计算深度值。该方法对光干扰具有高度鲁棒性，同时能够在极长的检测范围内实现高度精确的深度测量。然而，深度图的分辨率受到像素采集硬件所带来的延迟限制。例如，Chaos LiDAR 深度传感器 ⁹ 可以在 20 米范围内提供亚厘米级精度；然而，像素检测频率仅限于大约 100 KHz。

在近年来，卷积神经网络（CNN）已实现了对密集间距深度信息的高质量重建 ¹⁰, ¹¹, ¹²。然而，大多数深度图非常稀疏，难以提供足够信息，限制了精确上采样。为了解决此情况，CNN 架构整合了两种输入图像：稀疏深度图和附加的引导图像，正如 ¹³, ¹⁴, ¹⁵ 所研究的那样。RGB 图像的高空间分辨率使其成为重建具有丰富高频细节的超分辨率（SR）深度图的理想引导。然而，这些方法在实际 LiDAR 系统中的适用性仍不清楚，因为大多数基准数据集并非使用 LiDAR 收集。

本研究旨在生成高保真深度图，用于沉浸式虚拟和增强现实应用，重点关注具有挑战性的室内场景。我们将基于RGB的超分辨率CNN框架与独立的Chaos LiDAR深度传感器原型 ¹⁶ 集成，以实现高精度和高分辨率。据我们所知，这是首次将前端LiDAR传感器与后处理CNN框架相结合的工作。与仅关注深度传感器精炼的以往工作不同，我们通过RGB引导的CNN后处理克服了物理限制。此外，与仅限于基于CNN的后处理的工作不同，我们的方法将传感器集成纳入，以解决受限于现有数据集的精度问题。我们强调源数据特征的重要性，而此前关于深度SR CNN的工作很少讨论此点。基于此，我们展示了将深度学习框架集成到传感器原型中的可行性。

我们解决了实现该系统的两个设计挑战：1）RGB摄像头与Chaos LiDAR深度传感器之间的跨模态像素失对齐；2）缺乏大规模真实世界的基于Chaos LiDAR的RGB-D数据集。第一个问题的主要原因是深度传感器中MEMS扫描的旋转操作与RGB摄像头的平面投影之间的不匹配，导致深度图出现显著的形状失真。至于第二个问题，现有的RGB-D数据集要么采用截然不同的深度感知技术（例如 Middlebury 中的立体摄像头 ¹⁷ 和 NYUv2 中的光编码 ¹⁸），要么不适用于我们目标的室内场景（例如用于自动驾驶的 KITTI ¹⁹）。本研究的主要贡献总结如下：

提出了一种跨校准的 Chaos LiDAR 基础 RGB-D 记录子系统，用于获取高精度原始深度和对应的良好对齐 RGB 图像。通过提出的两阶段校准，跨模态像素失对齐问题得到了很好解决。
一个基于 RGB 引导的深度超分辨率 CNN 子系统被设计用于获取空间密集的深度图。为以成本有效的方式克服真实世界 Chaos LiDAR 基于 RGB-D 数据的稀缺性，我们构建了一个大规模合成数据集并采用了迁移学习策略。
收集了两个对齐良好的 Chaos LiDAR 基础 RGB-D 数据集，以验证所提出框架的有效性。
与 RealSense D435i 商业 RGB-D 记录设备相比，该整体系统在主观视觉感知、精度和深度估计密度方面表现显著更佳，尤其在更远距离实现时。

本文的其余部分安排如下。整体系统在第 II 节中介绍。第 III 节描述了交叉校准的 Chaos LiDAR 感知系统以及所提出的校准方案。第 IV 节概述了所提出的 RGB 引导的基于 CNN 的深度超分辨率框架。第 V 节讨论了实验结果。第 VI 节将所提出的系统与 RealSense D435i 进行比较。第 VII 节呈现讨论。第 VIII 节总结了相关工作。最后，第 IX 节给出结论。

SECTION II. 系统概述

整体系统流程如图 1 所示。我们采用 Chaos LiDAR 传感系统实现高精度深度图获取，并使用 Sony DSC-RX100M5A 相机同步采集相应的 RGB 引导图像。Chaos LiDAR 系统经历两阶段校准：1）MEMS 校准；2）跨传感器坐标投影，以确保与高分辨率 RGB 摄像机的精准对齐。前者解决了 Chaos LiDAR 传感器不均匀步进效应问题，后者则处理跨模态像素失配。随后将对齐良好的 RGB‑D 数据对送入 RGB‑引导的深度超分辨率 CNN，实现精确的深度图上采样。

图 1. 所提深度图重建系统的处理流程.

跨传感器坐标投影本质上是一种像素对齐的优化算法，通过已知少量棋盘样本的位置校准两传感器坐标之间的投影矩阵。随后，优化后的投影矩阵在推理阶段用于任意物体的 RGB‑D 对齐。RGB‑引导的深度超分辨率 CNN 的任务是重建高质量、高密度的深度图。我们准备了一个合成数据集（称为 ROOMv1），并制定了一个迁移学习策略，以成本效益高的方式克服缺乏大规模 LiDAR 数据集的问题。在使用合成数据集训练模型后，随后使用少量 LiDAR 数据样本进行参数微调。我们在两个视场（FOV）设置下捕获给定场景：5° FOV（高分辨率真值）和 20° FOV（低分辨率输入）。以下章节将详细讨论跨校准的 Chaos LiDAR 感知系统和 RGB‑引导的深度超分辨率 CNN。

第三节. 交叉校准的混沌 LiDAR 信号感知系统

A. MEMS 校准的混沌 LiDAR 感知系统

Fig. 2 描绘了 3D 脉冲混沌激光雷达系统的示意图。通过 MEMS 镜面在水平和垂直扫描方向上将激光束定向至目标，产生的光信号通过四分量雪崩光电探测器 (APD) 捕获。遵循 ²⁰ 中的方法，我们使用现场可编程门阵列 (FPGA) 在每个扫描角度下计算目标信号与参考信号之间的互相关时间延迟，从而生成 3D 点云。需要注意的是，3D 点云可能因 MEMS 镜面扫描速率的变化而在投影空间中显著偏离目标。同样需要注意的是，MEMS 镜面可在线性扫描模式或共振扫描模式下运行 ²¹, ²², ²³。在线性模式下，扫描角度与输入电压成正比（即线性关系），操作在较低的扫描频率下进行。扫描以均匀速度进行，确保扫描点在投影空间中均匀分布。为提高 MEMS 镜面的扫描频率（高速扫描），可将镜面切换到共振模式（即进行简谐振动）。在共振模式下，镜面在边缘方向反转时的减速与加速会导致投影点在投影空间中的分布不均匀，从而引起图像失真。在本研究中，我们在混沌激光雷达系统的水平方向采用共振模式，并需处理扫描速率的变化。MEMS 镜面的校准分两步进行：1）测量扫描点分布变化程度；2）激光雷达图像校准。

FIGURE 2. 3D 脉冲混沌激光雷达系统的示意布置 [9]. Chaos laser: a 1550-nm single-mode semiconductor laser (Shengshi Optical SBF-D55W2-111PMS) 受光学反馈作用; BOA: Booster optical amplifier (Thorlabs BOA1004PXS); FC: Fiber coupler; VA: Variable optical attenuator; APD: Avalanche photodetector (Idealphotonics QAD- 1000L); EDFA: Erbium-doped fiber amplifier (GIP CGB1E3128001A); MEMS: Microelectromechanical system (Mirrorcle, S6244); FPGA: Field Programmable Gate Array (Xilinx Virtex-7 VC707).

图 3 (a)展示了直线条纹均匀间隔为 2 cm 的目标照片示例。图 3 (b)展示了使用 Chaos LiDAR 构建的相应图像。可以看到，由于前述扫描速度的变化，LiDAR 图像在边缘处更厚，中心更薄。在所提出的 LiDAR 系统中，我们采用了 100 kHz 的光输出频率，使得像素感知时长为 10~\mu 秒。扫描速度的变化可以通过计算 LiDAR 图像中条纹的测量宽度得到，见图 3 (c)。

FIGURE 3. (a) RGB 图像与 (b) LiDAR 图像的扫描目标。 (c) MEMS 镜子扫描速度变化。 (d) 带畸变校正的扫描目标 LiDAR 图像。

LiDAR 成像用于获取在共振模式下运转的镜子加速度和扫描轨迹相关的数据。镜子的运动具有简谐运动的特征。数学上，可以使用余弦函数来描述该运动，从而推导出精确的扫描轨迹估计。对于慢轴和快轴分别为 \alpha 与 \beta 的扫描角度，我们可以根据深度图的相应位置 (n,m) 推算它们的值：

\begin{align*} & \alpha (n):\ - \frac {FOV_{y}}{ 2 } + \frac {FOV_{y}}{ N - 1 } { (n - 1) } \ (n=1,2,3,\ldots,N), \tag {1}\\ & \beta (m):\ - \frac {FOV_{x}}{ 2 } * \cos \left ({{\frac { \pi *(m-1) }{ (M-1) }}}\right) \ (m=1,2,3,\ldots,M), \tag {2}\end{align*}

其中 FOV_{y} 与 FOV_{x} 分别表示用户为慢轴和快轴设置的最大扫描角度，N 与 M 分别表示慢轴和快轴的总扫描点数。对于垂直轴与水平方向的 (n,m)-th 点，\alpha 与 \beta 是它们对应的扫描角度。

镜子在线性模式下的操作在 Eq. (1) 中描述。从边缘开始，扫描点以等于视场（FOV）除以总像素数的固定角速度前进。镜子在共振模式下的操作在 Eq. (2) 中描述，其中包含余弦函数来模拟沿快轴的简谐运动。 \alpha 与 \beta 以及球坐标中的范围 r 随后被转换为笛卡尔坐标中的 X、Y、Z：

\begin{align*} & \text {X(n,m):}\ \cos (\alpha (n))* \sin (\beta (m))* r(n, m), \tag {3}\\ & \text {Y(n,m):}\ \sin (\alpha (n))* r(n, m), \tag {4}\\ & \text {Z(n,m):}\ \cos (\alpha (n))*\cos (\beta (m))* r(n, m), \tag {5}\end{align*}

方程 (3)–(5) 可用于计算空间位置 (X, Y) 以及深度信息 (Z)。最后，深度信息在模拟轨迹中重新排列，以匹配真实扫描轨迹，从而消除 MEMS 镜子在共振模式下操作所导致的图像失真。

图 3 (d) 展示了校准后使用混沌 LiDAR 构建的图像。与图 3 (b) 中条纹分布不均不同，校准图像中的条纹间距均匀，间隔为 2 cm，符合真实目标。

B. 基于 SNR 的跨传感器坐标投影

如图 4 所示，混沌 LiDAR 系统中的 MEMS 镜子通过等距旋转执行深度扫描，而 CMOS 传感器则以等间距方式获取像素数据。在这种条件下，无法在没有进一步处理的情况下将捕获的 RGB 图像与 LiDAR 深度图对齐。我们通过校准和对齐来解决 RGB-D 对齐问题，从而获得从混沌 LiDAR 坐标到 RGB 相机坐标的变换。与之前的研究类似，RGB 相机的校准使用了棋盘格图案 ²⁴, ²⁵. 为了使棋盘格的角落可在混沌 LiDAR 传感器中可见，我们使用不同反射率的多种材料制作黑白方格，然后利用接收激光信号的信噪比 (SNR) 信息生成棋盘格图像。

图 4. 混沌 LiDAR 与相机的不同传感器特性。

相关系数 (SNR_{cc}) 的信噪比用于评估参考信号和目标 LiDAR 信号的信噪值，以重建棋盘格图案。SNR_{cc} 定义为

\begin{equation*} SNR_{cc} = 10\log \frac {\mathbf {Corr}[T_{peak}]}{3\sqrt {\frac {\sum _{N=t_{f}-100}^{t_{f}}{(\mathbf {Corr}[N] - \boldsymbol {\mu }_{corr})}}{100}}} \ (in \ dB), \tag {6}\end{equation*}

其中 T_{peak} 表示相关追踪达到峰值时的索引，\mathbf {Corr}[T_{peak}] 表示对应的相关值。t_{f} 是时间域中最终的相关追踪索引，\mu _{corr} 表示相关追踪中最后 100 个样本的平均值。图 5（a）展示了每个 SNR_{cc} 术语标记的相关追踪。由于在整个 Chaos LiDAR 系统中实时计算 SNR_{cc} 的计算量很大，我们改用 \mathbf {Corr}[T_{peak}] 来降低计算复杂度。图 5（b）显示了采样的 \mathbf {Corr}[T_{peak}] 图像。

FIGURE 5. (a) 相关追踪示例。SNR_{cc} 相关术语已标记。 (b) 采样的 \mathbf {Corr}[T_{peak}] 图像。

然后使用两个坐标系中的角点位置来获取优化后的投影参数，计算公式如下：

\begin{equation*} s\tilde {\mathbf {m}} = \ \mathbf {A}[\mathbf {R} \ \ \mathbf {t}]\tilde {\mathbf {w}}, \tag {7}\end{equation*}

其中 s 是一个任意的尺度因子，\tilde {\mathbf {m}} 指代图像坐标向量中的测量点（RGB 角点的位置），A 是内参矩阵， [\mathbf {R} \ \mathbf {t}] 是由旋转矩阵和位移向量组成的外参矩阵，\tilde {\mathbf {w}} 指代世界坐标系中的测量点（深度角点的位置）。

将内参矩阵和外参矩阵相乘后，矩阵可以进一步简化为

\begin{align*} s \left [{{ \begin{matrix} U \\ V \\ 1 \end{matrix} }}\right ] & = \left [{{ \begin{matrix} p_{11} & \quad p_{12} & \quad p_{13} & \quad p_{14} \\ p_{21} & \quad p_{22} & \quad p_{23} & \quad p_{24} \\ p_{31} & \quad p_{32} & \quad p_{33} & \quad p_{34} \\ \end{matrix} }}\right ] \left [{{ \begin{matrix} X \\ Y \\ Z \\ 1 \end{matrix} }}\right ] \\ & = \ \mathbf {P}\tilde {\mathbf {w}}, \tag {8}\end{align*}

其中 U 和 V 是图像投影平面中的索引，X、Y、Z 是在齐次世界坐标表示中从等式 (3) \times (5) 获得的向量。 P 是相机投影矩阵，等于内参矩阵 A 与外参矩阵 [\mathbf {R} \ \mathbf {t}] 的乘积。图 6 展示了用于获得投影矩阵 P 的对齐过程，其中输入是原始深度信息，输出是已校准并投影的深度点云。我们采用基于优化的算法来估计投影矩阵 P。训练数据包括 RGB 图像、原始 Chaos LiDAR 深度图，以及来自不同角度和距离的 Chaos LiDAR SNR_{cc} 棋盘地图。我们通过直接线性变换（DLT）初始化投影矩阵 P，并使用 Levenberg-Marquardt 算法优化参数，直至投影误差收敛。详细公式见附录。在 RGB 图像（图像坐标系）中捕获的角点位置被采用为地面真值。通过将世界坐标系中角点的位置转换为基于优化后投影参数的图像坐标系中对应角点的位置来评估重投影误差。根均方误差（RMSE）用于衡量重投影结果与地面真值之间的偏差，以像素数为单位。平均根均方误差（RMSE）值随 Chaos LiDAR 视场角（FOV）的变化如下：5° FOV 为 0.9362 像素，20° FOV 为 4.0403 像素。

图 6. 跨传感器坐标校准的整体对齐流程 [20]。N 表示用于参数优化的总图像对数。

第四节. RGB 引导的深度图超分辨率卷积神经网络用于 Chaos LiDAR

Chaos LiDAR 传感器提供高度准确的深度信息；然而，低空间分辨率限制了它们在现实世界中的适用性。因此，我们将跨校准的 Chaos LiDAR 与基于 CNN 的超分辨率系统集成，以生成高质量、高密度的深度图。请注意，我们的重点是现实场景中的实现，而非客观指标。因此，我们偏离了对现有合成数据集或基准（如 KITTI ²⁶ 和 NYUv2 ²⁷）的假设，转而关注易受非理想影响的实际系统所收集数据的实用性和可解释性。

A. RGB 引导的深度图超分辨率 CNN 系统

图 7 概述了所提出的 RGB 引导深度图超分辨率 CNN 系统的推理流程，其输入为经过校准的深度点云（使用 Chaos LiDAR 扫描得到）和 RGB 图像（使用数码相机捕获）。推理分两个阶段进行：1）最近邻逆向变形，2）CNN 模型推理。经过校准的三维深度点云被转换为二维（平面）深度图，然后与对应的 RGB 图像一起送入 CNN 模型，以生成具有 4 倍空间分辨率的超分辨率深度图。我们的深度图超分辨率 CNN 模型基于 ²⁸ 所述的网络。该网络利用引导图像来增强目标深度图的结构细节。它由三个 CNN 块组成：CNNT 与 CNNG（并行）用于分别从深度图和引导 RGB 图像中提取特征，CNNF 则利用它们拼接后的输出进行重建。

图 7. 我们所提出的 RGB 引导深度图超分辨率 CNN 系统的处理流程。采用最近邻逆向变形算法将校准后的点云转移到整数相机网格。对齐点云的坐标记为 X、Y、Z。投影 LiDAR 图在浮点表示下的二维位置记为 X'_{n} 和 Y'_{n}，而在整数网格中的变形 LiDAR 图记为 X_{n} 和 Y_{n}。

B. 实用 LiDAR 应用中的最近邻逆向变形

我们的RGB引导CNN将二维平面深度图作为输入，该深度图是从对齐的三维点云信息投影得到的；然而，坐标投影导致深度位于浮点位置。在此工作中，我们采用图像变形来纠正由域转换引入的图像失真。我们选择将深度点云变形到RGB图像，因为深度点的分辨率较低。

图 7 展示了不同变形算法的示意。我们选择从目标 RGB 映射逆向变形回源 LiDAR 深度图，以避免前向变形带来的深度空洞问题。我们以每个 RGB 像素的 x、y 坐标作为参考，将 LiDAR 图中的深度点映射到与之最近的距离。与相应参考点最近的 LiDAR 深度点被无插值地变形到 RGB 系统中的对应整数点。尽管双三次或双线性插值可以预测更接近真实世界值的深度，但它们可能会平滑高频原始数据，潜在地降低后续 CNN 推理的性能。因此，我们决定保留 LiDAR 系统得到的原始深度值。这种从 3D 到 2D 的转换得到了一幅与参考 RGB 图像对齐良好的深度图。最终得到的 RGB‑D 图像对随后用于深度图超分辨率 CNN。

C. 实际 LiDAR 应用的迁移学习

实际 CNN 模型的鲁棒性依赖于丰富的训练数据，而 3D Chaos LiDAR 系统由于其深度图与其他测距系统的独特性，缺乏足够的数据。大多数真实世界基准与 Chaos LiDAR 不兼容，即使作为先验知识亦然。由于机械硬件设置、跨模态标定、传感器校正和场景搭建等因素，漫长的数据采集过程进一步加剧了这一挑战。在我们的实验中，仅收集 12 对数据就耗时 16 小时。因此，我们选择生成一个合成 LiDAR 数据集用于 CNN 迁移学习。

我们模拟 Chaos LiDAR 系统的深度获取，以生成 ROOMv1，这是一份包含 508 对真实点云与对应 RGB 图像的 RGB‑D 数据集。该数据集包含 13 个使用 Blender ²⁹ 创建的三维室内场景，并使用模拟 RGB 摄像头捕获。LiDAR 深度扫描行为采用 Blensor ³⁰ 进行建模，该工具为开源仿真工具。我们预计 ROOMv1 数据集的一致性将使其在训练时比现有基准（如 NYUv2 或 KITTI）更为有效。

我们首先使用大型 ROOMv1 数据集对 CNN 进行深度图超分辨率的预训练，以避免过拟合。随后将预训练参数迁移到目标模型，并使用小规模真实 LiDAR 数据集进行微调，如图 9 所示。此模型被称为 ROOMv1 模型迁移。为对比，我们还执行了 NYUv2 模型迁移，使用 NYUv2 数据集进行模型适配。

FIGURE 8. ROOMv1 数据集.

FIGURE 9. 采用的迁移学习策略。我们使用 ROOMv1 数据集预训练目标模型，并使用小规模真实 LiDAR 数据进行模型微调。为对比，我们还使用 NYUv2 数据集预训练模型。

第5节：实验结果

A. 实验设置

我们收集了两个真实 LiDAR 数据集进行评估，包括具有基础照明的相对简单场景（LiDARv1）以及具有额外光源和更高质量 RGB 图像以增强对比度的更复杂场景（LiDARv2）。考虑到一般室内空间的尺寸，目标物体被放置在距 LiDAR 传感器约 4 到 6 米的距离。LiDARv1 包含 8 对数据，LiDARv2 包含 12 对数据。

迁移学习涉及使用 ROOMv1 或 NYUv2 训练模型 2000 轮，然后选择验证损失最小的轮次作为预训练模型。我们在 ³¹ 中采用相同的数据集划分（1000 对，分辨率为 640\times 480）用于 NYUv2 数据。为确保公平比较，我们选取 295 对 ROOMv1 数据，分辨率为 1024\times 1024 用于训练模型。此选择确保训练信息量相似。我们将剩余 ROOMv1 数据中的 60 组用于验证，保留 153 组用于测试。随后将预训练模型迁移到真实 LiDAR 数据集，并进行 200 轮微调。我们还通过仅使用真实 LiDAR 数据集从零开始训练模型，使用 2,200 轮来评估迁移学习的有效性，以确保公平比较。

由于真实 LiDAR 数据可用性有限，我们采用交叉验证 ³² 来评估模型性能。请注意，交叉验证是一种重抽样过程，使用不同的数据子集进行模型的训练和测试。此方法有助于防止过拟合和选择偏差，并提供对模型在未见数据上泛化能力的洞察。LiDARv1 在每一次迭代中被划分为 6 个训练集和 2 个测试集。该过程重复四次（形成一次试验），以确保每个数据点被一次性用作测试数据。一次试验中所有测试的结果被平均为单一估计值来评估模型性能。上述过程同样适用于 LiDARv2，LiDARv2 被划分为 9 个训练集和 3 个测试集。

B. 跨模态校准的有效性

图 10 展示了有无跨模态校准的深度图视觉对比。直接映射是将采样点云值以一对一 Z 扫描方式直接映射到二维平面，而不考虑跨传感器特性的差异。所提出的跨模态校准方法提供了对齐良好的深度图。图 11 显示了基于 RGB 的 CNN 推理结果，显示校准后的深度图相较于未校准的深度图具有更尖锐的边界。

图 10. 深度图 (b) 有跨模态校准时与 (c) 没有跨模态校准时的视觉结果。对应的 RGB 图像显示在 (a)。没有校准的深度图可见严重的形状失真。

图 11. RGB 引导的深度 SR 在有跨模态校准与无跨模态校准下的 CNN 推断结果。对齐良好的深度图具有更尖锐的边界。

C. 目标质量比较

表 1 和 2 展示了使用客观指标对各模型的定量比较。RMSE 衡量预测深度值与真实值之间的差异。Bad pixels 记录相对误差超过指定阈值的像素所占比例。此处我们使用 Bad-1% 与 Bad-2% 分别表示 1% 和 2% 的阈值。我们进一步将图像划分为纹理、边缘和前景区域进行更细致的分析。对应的掩膜如图 12 所示。基于深度学习的方法明显优于使用双三次上采样的方法，而在大型数据集上进行预训练（迁移学习）的模型也优于仅在小型真实世界 LiDAR 数据集上从零开始训练的模型。在 LiDARv1 4 倍上采样下，ROOMv1 训练模型的 RMSE 在对象边缘处比双三次插值低 13%（1.61 cm），在整幅图像上低 14%（0.67 cm）。在 Bad-1% 与 Bad-2% 的坏像素百分比方面，所提系统在边缘估计上分别比双三次插值降低 4.36% 与 6.08%。在 LiDARv2 4 倍上采样下，ROOMv1 训练模型的 RMSE 在对象边缘处比双三次插值低 21%（3.17 cm），在整幅图像上低 24%（1.79 cm）。请注意，在此复杂环境中迁移学习的优势更为明显，得益于其更优的泛化能力。尽管我们的合成 ROOMv1 数据集（13 场景 295 对数据）在多样性上不及 NYUv2（464 场景 1,000 对数据），但使用 ROOMv1 迁移学习获得的精度与使用 NYUv2 的相当。

表 1

表 2

FIGURE 12. 对两个真实LiDAR数据集结果的可视化。上四行图像属于第1个真实LiDAR数据集（LiDARv1），下四行图像属于第2个真实LiDAR数据集（LiDARv2）。总体而言，ROOMv1-transferred产生的深度图具有相对清晰的边界。

D. 主观质量比较

Fig. 12和Fig. 13展示了使用迁移学习获得的结果与从零训练获得的结果的视觉对比。通过从零训练生成的深度图像模糊，尤其在边缘区域。这可能解释了从零训练的模型与使用迁移学习训练的模型在RMSE上差别不大，但在坏像素指标上显著更弱（见表1）。从零训练也可能导致过度纹理问题。如Fig. 13（c）所示，深度图中的某些对象（例如木箱、篮球和书本）表现出与其对应的RGB图像相似的纹理。虽然ROOMv1-transferred和NYUv2-transferred模型在定量指标上表现相似，但ROOMv1-transferred模型在感知质量上普遍表现更好，具有更锐利、更清晰的边界。我们将其归因于ROOMv1的属性更接近真实LiDAR数据。

FIGURE 13. RealSense D435i 与我们系统的主观对比。(a) RGB图像。(b) 我们的Chaos LiDAR在4.5米处使用4倍双三次上采样捕获的深度图。(c) 我们的Chaos LiDAR在4.5米处通过从零训练得到SRx4捕获的深度图。(d) 我们的Chaos LiDAR在4.5米处通过从ROOMv1转移并微调得到SRx4捕获的深度图。(e) RealSense D435i在2米处捕获的深度图。与RealSense D435i（e）相比，我们的Chaos LiDAR（b、c、d）能够在更远距离生成更精确的深度值。CNN基上采样方法（c、d）相对于双三次上采样（b）提供更清晰、更平滑的边界。所提出的迁移学习框架（d）能够抑制从零训练方法（c）中的过度纹理问题。

进一步评估通过使用开源 MeshLab ³³ 和 MeshMixer ³⁴ 对深度图渲染三维三角网格完成。Fig. 14 展示了通过双三次插值或 ROOMv1 模型迁移并微调获得的渲染三维网格。双三次插值无法有效渲染物体边缘，原因是深度图值不准确。使用 ROOMv1 转移模型并微调生成的立体三维网格形状与对应的 RGB 图像相近，归因于其深度图质量高。

图 14. 从深度图渲染的 3D 网格。对应的 RGB 图像显示在图 13 (a)。

第六节：与商业 3D 录制设备的比较

表 3 比较了多种 RGB-D 摄像机的规格。Chaos LiDAR 在长距离上提供卓越的精度，优于所有其他摄像机。整个系统通过在后处理阶段加入深度图超分辨率，实现了与其他系统相当的空间分辨率。我们还将所提系统获得的深度图的视觉质量与使用 RealSense D435i ³⁵ 获得的深度图进行比较。与使用飞行时间深度测量的 LiDAR 不同，RealSense D435i 采用基于两台摄像机的立体成像来计算深度值。凭借深度图分辨率为 1280\times 720，该设备提供可用拍摄范围为 0.3 至 3.0 米。根据视场、分辨率和拍摄范围，RealSense D435i 在 2 米时的空间分辨率（米/像素）与 4.5 米时所提系统相当。因此，我们将 RealSense D435i 的图像裁剪到 2 至 3 米的覆盖范围，同时将我们的 LiDAR 图像裁剪到 4.5 至 5.5 米的范围。随后我们将数值归一化至 0 到 1 的范围，并乘以 255 形成深度图。Fig. 13 比较了 RealSense D435i 与所提系统生成的深度图，Fig. 14 展示了相应的 3D 网格。RealSense D435i 的结果在某些纹理上表现出不一致，并且在边缘附近的深度点存在不准确，导致失真和模糊的物体轮廓。尽管从更远的距离捕获图像，所提系统生成的深度图质量仍然远高于此。

表 3

第七节讨论

A. 系统特性

该系统旨在提供高精度、高分辨率的深度图。为了解决现有数据集和设备的局限性，我们利用 Chaos LiDAR 原型机以确保传感器的精准性能。鉴于传感器的分辨率限制，我们将深度超分辨率 CNN 模型集成到实际系统中，以解决数据采集中的挑战。与独立的深度超分辨率模型开发不同，本工作从整体系统视角进行设计，强调数据来源的关键作用。本工作验证了将前端传感器原型与 CNN 后处理集成的思路，为这两个领域的相关工作搭建了桥梁。此外，我们提出的系统也有潜力应用于户外环境，这将成为我们未来的实验对象。

B. CNN 模型的泛化

本工作聚焦于系统开发、传感器集成和可行性验证。一个小模型（\sim ~56K 参数）在每个数据集上单独训练，以进行初步评估。跨数据集泛化和大规模模型训练将成为我们的未来实验。

第八节相关工作

A. 深度图超分辨率

已有许多方法 [^31], [^32], [^33], [^34] 被提出用于深度图超分辨率。这些研究采用先进技术提升模型结构或训练过程，并改善重建深度图的质量。相比之下，我们的框架主要关注将 RGB 引导的 CNN 集成到实际 Chaos LiDAR 原型系统中，并解决可能降低 CNN 性能的非理想因素。我们关注 Chaos LiDAR 原始深度的数据预处理、RGB-D 摄像机之间的对齐问题以及迁移学习的引入。我们选择一个相对基本的模型 ³⁶ 以避免过拟合。我们预期这些关于先进 CNN 后处理的先前研究将与我们的框架兼容，甚至相辅相成。

B. 深度图数据集

有若干 RGB‑D 数据集可用于训练和评估深度图超分辨率任务。然而，这些数据集中的深度感知机制与我们的 Chaos LiDAR 有显著差异。例如，NYUv2 数据集 ³⁷ 使用 Microsoft Kinect 传感器 [^35] 采集，在该传感器中，深度误差随检测距离呈二次方增长。Middlebury 数据集 ³⁸ 则使用立体相机采样，生成与绝对深度成反比例的相对深度图（视差）。现有数据集中的深度精度受限，限制了其适用性，尤其是在需要高精度深度图的场景中。

C. Chaos LiDAR 传感器与 CNN

虽然 Chaos LiDAR 和 RGB 摄像机在之前的工作 ³⁹ 中也被用于 CNN 的 RGB‑D 数据采集，但其应用主要集中在面部分类，需要较低的跨传感器校准精度。相比之下，我们的应用需要逐点预测，对对准精度要求更高。基于这一差异，本文聚焦于开发相应的技术改进。

第九节. 结论

本文提出了一种高保真深度感知系统，将原型 Chaos LiDAR 深度传感器与 RGB 引导的深度图超分辨率 CNN 集成，提供高精度、密集的深度估计，适用于高度沉浸式的虚拟与增强现实。通过两阶段校准技术解决 RGB‑D 传感器的对准问题。针对缺乏大规模真实世界 LiDAR 数据集的挑战，本文利用迁移学习生成大规模合成数据集。所提出的系统在主观视觉感知上优于现有系统，即使在更远距离实现时亦如此。这表明将该方案应用于更广泛场景下的沉浸式 3D 应用具有潜力，尤其是针对一般室内场景。

附录：投影矩阵校准的初始化与优化推导

附录推导：初始化与优化投影矩阵校准

我们使用直接线性变换（DLT）为非线性优化提供初始值。设 p_{34} =1 的值，我们可以推导出等式 (8)。

\begin{align*} U(p_{31}X+p_{32}Y+p_{33}Z+1) & \!=\! p_{11}X+p_{12}Y+p_{13}Z+p_{14}, \\ V(p_{31}X+p_{32}Y+p_{33}Z+1) & \!=\! p_{21}X+p_{22}Y+p_{23}Z+p_{24}, \tag {9}\end{align*}

U 和 V 的表达式是一个合理的假设，关系可以用矩阵 W 表示，如等式 (10) 所示，显示在下一页顶部

\begin{align*} \mathbf{W}=\left[\begin{array}{ccccccccccc} X_{1} & Y_{1} & Z_{1} & 1 & 0 & 0 & 0 & 0 & -U_{1} X_{1} & -U_{1} Y_{1} & -U_{1} Z_{1} \\ 0 & 0 & 0 & 0 & X_{1} & Y_{1} & Z_{1} & 1 & -V_{1} X_{1} & -V_{1} Y_{1} & -V_{1} Z_{1} \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ X_i & Y_i & Z_i & 1 & 0 & 0 & 0 & 0 & -U_i X_i & -U_i Y_{i} & -U_{i} Z_{i} \\ 0 & 0 & 0 & 0 & X_{i} & Y_{i} & Z_{i} & 1 & -V_{i} X_{i} & -V_{i} Y_{i} & -V_{i} Z_{i} \\ \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\ X_{N} & Y_{N} & Z_{N} & 1 & 0 & 0 & 0 & 0 & -U_{N} X_{N} & -U_{N} Y_{N} & -U_{N} Z_{N} \\ 0 & 0 & 0 & 0 & X_{N} & Y_{N} & Z_{N} & 1 & -V_{N} X_{N} & -V_{N} Y_{N} & -V_{N} Z_{N} \end{array}\right]\tag {10}\end{align*}

在不同图像中的若干点，N 是点的总数，(U_{i},V_{i}) 是图像坐标中的 i^{th} 角点索引，(X_{i},Y_{i},Z_{i}) 是世界坐标中的 i^{th} 角点索引。

然后，我们可以构造一个等式为

\begin{equation*} \mathbf {Wp} = \mathbf {c+n}, \tag {11}\end{equation*}

c 是图像坐标中的角点，n 是噪声项的表达式，p 是投影矩阵 P 的向量化形式。p 的解可以初始化为

\begin{equation*} \mathbf {p} = \mathbf {(W^{T}W)^{-1}W^{T}}\mathbf {(c+n)}. \tag {12}\end{equation*}

最后，我们应用 Levenberg-Marquardt 算法，如算法 1 所示，对投影矩阵 P 进行非线性优化。算法 1 Levenberg-Marquardt 算法

输入:

DLT 初始化 \mathbf {p_{0}}，一个函数 f \ : R^{m} \to R^{n} \ with \ n \geq m，世界坐标中的测量点 \mathbf {c} \in R^{n}，最大迭代次数 k_{max}

输出:

p 用于最小化 \|{\mathbf {c - Wp}}\|

初始化: k = 0, v = 2, \mathbf {p} = \mathbf {p_{0}}, \mathbf {A} = \mathbf {J}^{T}~\mathbf {J}, \epsilon _{p} = \mathbf {c} - f(\mathbf {p}), \mathbf {g} = \mathbf {J}^{T}~\mathbf {\epsilon _{p}}, \mu = \tau *max \{ a_{ii} \}, found = (\|{\mathbf {g}}_{\infty }\| \leq \epsilon _{1})

当 (found == false) 且 (k \lt k_{max}) 时

k = k + 1, 求解 (\mathbf {A}+\mu \mathbf {I})\boldsymbol {\delta }_{p} = -\mathbf {g}

若 |{\boldsymbol {\delta }_{p}}\| \leq \epsilon _{2}(\|{p}\|+\epsilon _{2}) 则

found = true

否则

\mathbf {p}_{new} = \mathbf {p} + \boldsymbol {\delta }_{p}

\rho = (\|{\epsilon _{p}}\|^{2} - \|{c - f(\mathbf {p}_{new})}\|)/(\delta ^{T}_{p}(\mu \delta _{p} + \mathbf {g}))

若 \rho \gt 0 则

10:

found = (\|{\epsilon _{\mathbf {p}}}\| - \|{\mathbf {c} - f(\mathbf {p}_{new})}\| \lt \epsilon _{4}\|{\epsilon _{p}}\|)

11:

\mathbf {p} = \mathbf {p}_{new}

12:

\mathbf {A} = \mathbf {J}^{T}\mathbf {J}, \epsilon _{p} = \mathbf {c} - f(\mathbf {p}), \mathbf {g} = \mathbf {J}^{T}\epsilon _{p}

13:

found = false or (\|{\mathbf {g}}_{\infty }\| \leq \epsilon _{1})

14:

\mu = \mu *max\left ({{\frac {1}{3},1-(2\rho -1)^{3}}}\right), v =2

15:

否则

16:

\mu = \mu * v, v = 2*v

17:

结束若

18: