多件衣服按指定穿法一键虚拟试穿! 中山大学&字节智创数字人团队提出了一个名为MMTryon的虚拟试穿框架,可以通过输入多个服装图像及指定穿法的文本指令来生成高质量的组合试穿结果。 比如选中一件大衣、一条裤子,再配一个包,用语言描述穿法,“啪”的一键就穿到了人像上.
相关链接
论文地址:https://arxiv.org/pdf/2405.00448
项目地址:https://zhangxj59.github.io/MMTryon.github.io/
论文阅读
MMTryon:用于高品质时尚生成的多模式多参考控制
摘要
本文介绍了 MMTryon,一种多模态多参考虚拟试穿 (VITON) 框架,该框架可以通过将文本指令和多张服装图像作为输入来生成高质量的组合试穿结果。我们的 MMTryon 解决了先前文献中忽略的三个问题:
- 支持多个试穿项目。现有方法通常设计用于单件试穿任务(例如,上衣/下装、连衣裙)。
- 穿衣风格的规范。现有方法无法根据说明定制穿衣风格(例如,拉上/拉开拉链、塞进/塞出等)
- 分割依赖性。它们进一步严重依赖特定类别的分割模型来识别替换区域,分割错误直接导致试穿结果中出现明显的伪影。
为了解决前两个问题,我们的 MMTryon 引入了一种新颖的多模态和多参考注意机制,将参考图像中的服装信息和文本说明中的穿衣风格信息结合起来。此外,为了消除分割依赖性,MMTryon 使用无需解析的服装编码器,并利用新颖的可扩展数据生成管道将现有的 VITON 数据集转换为允许 MMTryon 进行训练的形式,而无需任何明确的分割。在高分辨率基准和野外测试集上进行的大量实验证明了 MMTryon 在质量和数量上都优于现有的 SOTA 方法。MMTryon 在多项目和风格可控的虚拟试穿场景中的出色表现,以及它能够从任何源图像中试穿各种场景中的任何服装的能力,为时尚界未来的研究开辟了一条新途径。
方法
所提出的 MMTryon 框架概述。指令提示和服装 图像相结合,获得多模态交错指令嵌入,取代原始文本条件。服装编码器进一步处理每张服装图像以及相应的文本跨度,以获得参考特征,这些参考特征与目标特征一起经过多参考注意,以确保详细的纹理传输。
所提出的预训练服装编码器概述。我们的服装编码器利用从地面恐龙和 SAM 获得的先验掩码,通过目标文本和输入特征之间的交叉注意来提高文本查询准确性。服装编码器由扩散重构损失和我们的文本查询损失监督。
MMTryon的数据生成管道。我们用一个大型多模态模型来描述目标人物图像,随后通过开放词汇基础和分割模型进行提取一个人的形象和几个服装主题之间的对应关系。对于每个主题,我们使用得到增强的数据集,作为我们的训练数据。
训练集可视化
效果
VITON-HD在单次试戴任务中的定性比较。与其他 方法,我们的方法MMTryon产生更逼真和纹理一致的图像。
野外定性比较。与 OutfitAnyone 相比,我们的方法 MMTryon 可以生成更真实、更稳定的图像。请注意,由于 Outfit Someone 只能通过其用户界面使用,因此此处的比较仅限于其提供的模型图像。
与绘画实例,Midjourney和DALLE3的定性比较 多模态多引用任务。与其他方法相比,我们的方法可以达到最好的效果结果既忠实又现实。
消融研究的定性结果。MMTryon w/o PR表示MMTryon,其中只有第二阶段是训练,MMTryon w/o TQL表示没有文本查询丢失的MMTryon 第一阶段,MMTryon w/o MRA表示没有多参考注意的MMTryon。
MMTryon的更多结果。我们的方法在大量的品种中证明了高质量的结果通过基于指令的操作来精确控制着装风格。
结论
在本文中,我们介绍了 MMTryon,这是一种新颖而强大的试穿模型,能够根据文本和多件服装自由生成具有逼真试穿效果的高保真 VITON 结果。通过使用预训练编码器,MMTryon 不仅避免了分割的需要,而且即使在数据有限的情况下也能实现组合试穿。为了支持多模态和多参考穿衣模式,MMTryon 引入了多模态指令注意和多参考注意模块。在高分辨率 VITON 基准和野外测试集上进行的实验表明,与现有方法相比,MMTryon 具有更优越的功效。