三维成像结构光

Micro-Baseline Structured Light

三维成像结构光_复杂度

 

 论文链接:

http://openaccess.thecvf.com/content_ICCV_2019/papers/Saragadam_Micro-Baseline_Structured_Light_ICCV_2019_paper.pdf

摘要

我们提出微基线结构光(MSL),一种新的三维成像方法,设计用于小尺寸设备,如手机和微型机器人。MSL使用小型投影仪相机基线和低成本的投影硬件,并且可以使用计算量较小的算法恢复场景深度。主要观察结果是,较小的基线会导致较小的差异,从而实现非线性SL图像形成模型的一阶近似。这导致了本文的关键理论结果:MSL方程,一种线性化的SL图像形成方法。由于每个像素处有两个未知量(深度和反照率),MSL方程受到约束,但可以使用局部最小二乘法有效地求解。我们从投影模式和基线等不同的系统参数来分析MSL的性能,并为优化性能提供指导。有了这些见解,我们建立了一个原型来实验检验这一理论及其实用性。

1.       Introduction

我们提出了一种新的SL方法,称为微基线结构光(MSL),它适合于这种高度受限的设备,从而打开了在小型、低功耗和低复杂度设备上部署SL的可能性。MSL在小型(微型)投影仪相机基线的约束下工作,如图1(b)所示,基于以下观察:小基线导致投影仪和相机像素之间的小差异。              

我们的主要理论见解是,在较小的差异下,结构光图像形成模型(在未知情况下(深度和反照率)是非线性的)可以通过一阶近似线性化。这导致了一个新的线性SL约束的推导,即微基线结构光(MSL)方程,它将场景反照率和深度与测量的强度联系起来。

三维成像结构光_最小二乘法_02

 

 2.       Related Work

结构光编码技术:              

一般来说,SL技术可分为多镜头和单镜头方法[25]。多镜头技术,如光条带化[2]、灰度编码[23]和正弦相移[3],通过快速连续地投影多个图案来估计形状。这些技术可以通过计算简单的解码算法来恢复高精度的深度,但是需要复杂的投影设备(例如LCD、DMD),这些设备可以动态地改变投影模式,使得它们不适合动态场景和低复杂度的设备,例如手机。单次拍摄技术只投射一个模式,依赖于强度[32]、颜色[8,13]或局部邻域中投影仪对应的编码[9,20,14]。单模式技术非常适合动态场景;然而,这些技术通常使用计算复杂的解码算法,需要专用硬件来实现实时性能。有一些单镜头方法具有相对简单的解码(例如傅里叶变换轮廓术(FTP)[30]),但它们对场景的纹理和深度做出了强有力的假设。             

实时SL系统:             

有一些方法可用于执行高速(1000 fps)SL,或者使用无法移植到移动设置的高成本高速摄像机[12],或者最近使用基于学习的方法,如超深度[24]和UltraTereo[7]。有了足够的数据,以及Kinect[1]等专用硬件,这些方法被证明是快速和准确的。              

我们的目标不同             

我们的目的是发展一种简单的,解析的,封闭形式的解码方法,利用传统的SL方程在小基线约束下的微分公式。未来一个有趣的研究方向是使用数据驱动技术来增强MSL,以潜在地进一步提高精度和速度。

3.       Structured Light Preliminaries

我们首先描述SL系统的图像形成模型,以了解投影相机基线在结构光系统中的作用。              图像形成模型。考虑如图1(b)所示的投影仪-摄像机对。我们假设一个矩形投影仪或摄像机配置,其中投影仪和摄像机中心水平移动B个单位。我们进一步假设投影仪和相机具有相同的空间分辨率和焦距f。这些假设只是为了便于说明;所提供的分析和技术对于一般配置和系统参数是有效的。

在下一节中,我们设计了一种技术,该技术要求投影一个模式(但捕获两个图像),但计算成本较低,因此可以在功率受限的系统上高效地实现。此外,尽管传统的SL系统使用尽可能大的基线,但所提出的技术是针对小尺寸器件而设计的,该器件只允许投影仪和相机之间有一个小(微)基线。

4.       Micro-baseline Structured Light

与微分法的关系             

上述分析与最近为光度立体设计的差分方法[5]和基于光场的运动估计[18]有相似之处。这些方法也线性化了一个本来很难解决的非线性问题,从而产生了易于处理的分析和解决方案。本着同样的精神,MSL可以被看作是SL的一个差分版本。             

与光流的关系             

值得注意的是,MSL矩阵类似于LucasKanade tracker[16]中的结构张量。在立体视觉的背景下,视差/光流的类似线性化和2矩阵的形成已经被探索过[6,21]。结构张量和MSL矩阵的一个关键区别是MSL矩阵只依赖于投影模式及其导数。因此,MSL矩阵的可逆性只能根据投影模式的性质来分析,而不能根据场景来分析。

三维成像结构光_基线_03

 

 5.       Invertibility of MSL Matrix

这个命题指出,通过投影一个不是常数或指数函数的模式,理论上保证MSL方程有解。接下来,我们讨论解的稳定性,这是存在噪声时的一个重要考虑因素。因此,当投影模式是周期性的时,MSL方程的解是稳定的。模式周期可能与分析窗口不对齐。然而,在实践中,如我们的实验所示,深度估计对小的偏差是稳健的。

6.       Handling Texture Edge

为了保持计算简单,我们假设反照率只是引导图像的缩放版本。图2通过计算高纹理对象的深度说明了引导MSL相对于标准MSL的优势。导频MSL极大地提高了基于MSL的深度恢复精度,几乎没有计算开销,从而扩展了所提出方法的范围。此后,我们的所有结果都是使用引导MSL方法计算的。

7.       Practical Considerations for MSL

3(b)说明了作为一些代表性模式周期的基线函数的精度。显然,与最小误差相对应的周期随着基线的增大而增大。

小基线确保一阶近似成立,但遭受三角测量误差[31]。另一方面,大基线需要一个大窗口,因此局部不变假设可能不成立。图4显示了作为基线函数的精度模拟。对于此分析,给定基线,我们选择达到该基线的最佳精度的模式周期。我们观察到,MSL在一组不同的例子中始终达到8-30mm之间的最高精度。在实际应用中,参数的准确选择取决于几个附加因素,如投影仪的允许分辨率、相机和投影仪的散焦。我们发现15mm的基线导致了最精确的结果,因此我们的实验室原型与此基线相符合(见图6)。

在什么样的设备约束下,MSL比现有的SL技术更合适?MSL的目标是具有受限的外形、低硬件复杂度和计算资源的平台,因此不应被视为现有测距硬件的通用替代方案。例如,如果一个系统能够投射多个模式,那么相移[3]即使在窄基线下也能精确工作,如图5所示。同样,如果一个系统有足够的计算资源和/或大基线,现有的单发技术[20、8、33、1、7、24]可以达到比MSL更高的精度。             

此外,如果该系统配备了两个摄像机,则可以依靠精确的立体匹配技术[17]来获得对应关系,尽管计算要求很高。然而,当所考虑的设备体积小,硬件和计算能力有限时,MSL承诺提供一个重量轻的解决方案。图5说明,MSL比小于100毫米的基线的块匹配更精确,同时速度也更快。虽然具体数字取决于具体配置,但当基线很小且只能投影单个图案时,MSL是合适的。

三维成像结构光_解决方案_04

 

 8.       Experiments

硬件设置             

我们的设备包括一台1280×720 DLP投影仪(AAXA technologies),f=8mm和一台2048×1536机器视觉摄像机(Basler acA2040120uc),f=12mm。不同的焦距和像素大小导致相机图像中的投影仪图形大小为2.5倍。摄像机放置在投影仪上方,水平基线为15mm,如图6所示。该系统还具有沿垂直方向的基线,这是由于机械约束而无法避免的。然而,由于我们提出了一个垂直对称的模式,因此只考虑水平基线和差异;垂直基线不影响水平差异的计算。             

基本事实             

我们使用五个频率的相移码捕获地面真实深度信息,对应于1280px、100px、50px、20px和10px的模式周期。低频被用来展开高频相位,这使得亚像素级的视差精确估计成为可能。             

手机上的运行时比较             

为了评估实时性,我们通过投影ran 800mm dom点模式,将MSL与具有微基线的立体块匹配算法进行了比较。结果如图7所示。请注意,投影模式以及解码策略没有针对窄基线进行优化;我们在这里的重点是比较时序复杂性而不是准确性。图5(b)显示了Android设备googlepixel2xl上不同图像分辨率的运行时与现有的基于匹配的方法(如块匹配和使用OpenCV[4]实现的半全局方法(SGBM))之间的比较。块匹配和半全局匹配3MP图像的运行时间分别为133ms和1s。相比之下,MSL在27ms时的速度要快得多,这表明MSL适合于移动平台。             

视频序列              

轻型SL技术的一个优点是能够以视频速率计算深度。为了验证这一点,我们以每秒30帧的速度拍摄了一系列图像,用于视频率3D成像。交替帧被捕获,没有任何模式用作指导图像。该系统以15fps的速度输出深度视频和无模式视频,无需计算(无需模式-场景分离),通常用于增强现实。我们在图8中显示了三个具有代表性的深度框架。请注意,深度变化在各种手势中都清晰可见。更重要的是,用于估计深度的计算开销非常小,可以实时输出,这使得MSL成为移动系统的一项引人注目的技术。             

实验评价              

9显示了在几何和纹理复杂度不同的几个场景中基于MSL的3D恢复结果。所有的实验都用不同时期的三角形模式捕捉到,展示了MSL可以使用的各种场景。第一行显示具有各种纹理复杂性的平面对象的结果。人体模型场景演示了纹理有限的非平面场景的MSL。注意三维模型如何显示前额和脸颊的曲线。最后,bas地形场景显示了小深度范围但高空间复杂度的精度。通过显示6px周期的图形,计算了bas地形场景的深度图,获得了较高的空间分辨率。请注意,在3D模型中精确地重建了摄像机的大腿。在所有情况下,深度误差小于8毫米。             

失败案例             

由于MSL是一种局部加窗估计技术,因此计算出的深度边缘处的深度被平滑,从而导致粘附到对象边界(参见图9中的平面场景)。高纹理对象和复杂几何体(如精细结构)的性能也会因违反局部恒定性假设而降低。其次,制导MSL假设窗口内的反照率是环境光照下图像的缩放版本。如果环境照明、投影仪照明或反射或表面法线的光谱有很大变化,从而导致伪影,则此假设不成立。第三,MSL依赖于亚像素精度的强度-视差,但容易受到间接照明的影响,因此在相互反射或次表面散射下无法很好地工作(见图10)。

三维成像结构光_复杂度_05

 

 

三维成像结构光_最小二乘法_06

 

 

三维成像结构光_复杂度_07

 

 

三维成像结构光_复杂度_08

 

 

9.       Discussion

我们提出了一种新的SL技术,它可以在窄基线、简单、低成本的硬件和低计算能力的限制下运行。通过对投影相机对应方程的线性化,我们证明了使用局部最小二乘法可以有效地估计深度。为投影图案的设计提供了理论和实践指导。MSL能够用有限的硬件进行深度计算,使其成为手机、无人机、微型机器人和内窥镜上的理想距离成像技术。

人工智能芯片与自动驾驶