MeshLRM: Large Reconstruction Model for High-Quality Meshes

原创

liferecords 2024-04-21 11:08:49 博主文章分类：LLM ©著作权

文章标签 3D 数据集不透明度 文章分类 计算机视觉人工智能 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者liferecords的原创作品，请联系作者获取转载授权，否则将追究法律责任

MeshLRM: Large Reconstruction Model for High-Quality Meshes

相关链接：arxiv 关键字：Sparse-view reconstruction、High-quality mesh、Large Reconstruction Models、Differentiable rendering、NeRF

摘要

MeshLRM是一种新颖的基于LRM（Large Reconstruction Models）的方法，能够仅使用四张输入图像在不到一秒钟的时间内重建出高质量的网格。与以往侧重于基于NeRF重建的LRM不同，MeshLRM将可微分的网格提取和渲染集成到LRM框架中。这允许通过微调预训练的NeRF LRM与网格渲染来实现端到端的网格重建。此外，我们通过简化以前LRM中的几个复杂设计来改进LRM架构。MeshLRM的NeRF初始化是使用低分辨率和高分辨率图像顺序训练的；这种新的LRM训练策略显著加快了收敛速度，从而提高了质量。我们的方法从稀疏视图输入实现了最先进的网格重建，并允许许多下游应用，包括文本到3D和单图像到3D的生成。

核心方法

MeshLRM框架：一个基于LRM的框架，集成了可微分的网格提取和渲染，用于端到端的少量视图网格重建。
可微分Marching Cubes（DiffMC）：应用DiffMC技术从triplane NeRF的密度场中提取等值面，并使用可微分光栅化器渲染提取的网格。
光线不透明度损失：提出了一种新的光线不透明度损失，确保所有像素光线沿线的空白空间保持接近零的密度，有效稳定了训练并引导模型学习准确的无浮动表面几何。
高效的LRM架构：简化了以前LRM中的复杂设计选择，包括去除预训练DINO模块在图像标记化中，以及用小的两层MLP替换大的triplane解码器MLP。
训练策略：在Objaverse数据集上训练MeshLRM，采用新颖的低分辨率预训练和高分辨率微调策略。

实验说明

实验使用Objaverse数据集进行训练和微调，并在GSO、NeRF-Synthetic和OpenIllumination数据集上评估MeshLRM的重建质量。使用PSNR、SSIM和LPIPS作为渲染质量的指标，使用双向Chamfer距离（CD）作为网格几何质量的指标。

数据集	PSNR↑	SSIM↑	LPIPS↓	CD↓
GSO	28.13	0.923	0.093	-
NeRF-Synthetic	-	-	-	4.94
OpenIllumination	26.10	0.940	0.070	-

实验结果表明，MeshLRM在渲染质量和网格几何质量方面均优于现有方法，且重建速度快，能够在不到一秒的时间内完成。

结论

本文提出了MeshLRM，这是一种新颖的LRM模型，能够直接输出高质量的网格。通过将可微分的Marching Cubes（DiffMC）方法和可微分光栅化应用于预训练的基于NeRF的LRM，并通过体积渲染进行训练，我们实现了这一目标。与现有方法相比，我们的方法在质量提升和速度提升方面都具有优势，并且是唯一能够输出高质量网格的方法。此外，我们还展示了我们的方法如何直接应用于文本到3D和图像到3D生成等应用。由于网格是工业中3D资产最广泛接受的格式，我们相信我们的方法为自动化3D资产创建迈出了一步，并可能为新的3D工作流程开启新的可能性。