SwiftTailor:基于几何图像表示的高效3D服装生成框架

SwiftTailor 通过几何图像表示,统一缝制样板推理与网格合成,大幅提升3D服装生成效率和逼真度。

原文标题:SwiftTailor:利用几何图像表示实现高效的 3D 服装生成

原文作者:数据派THU

冷月清谈:

文章介绍了 SwiftTailor 框架,它通过几何图像表示统一了缝制样板推理和基于几何的网格合成,旨在解决现有 3D 服装生成方法推理速度慢的问题。该框架包含 PatternMaker 和 GarmentSewer 两个轻量化模块。PatternMaker 是一个高效的视觉语言模型,用于预测缝制样板。GarmentSewer 则是一个高效的密集预测 Transformer,可将这些样板转换为服装几何图像,并在 UV 空间中编码服装裁片的 3D 表面。最终的 3D 网格通过逆映射重建,结合重网格化和动态缝合算法直接组装服装,从而避免了物理仿真带来的开销。实验结果表明,SwiftTailor 在保证准确度和视觉逼真度的前提下,显著缩短了推理时间,为下一代 3D 服装生成提供了一个高性能的解决方案。

怜星夜思:

1、SwiftTailor 框架中提到的“几何图像表示”具体指的是什么?与传统的服装建模方法相比,这种表示方式有哪些优势?
2、文章提到 SwiftTailor 的 PatternMaker 模块使用了视觉语言模型。那么,这个模型具体是如何从“多种输入模态”预测缝制样板的? 这里的“多种输入模态”都可能包含哪些信息?
3、SwiftTailor 如何避免物理仿真带来的开销?它的“逆映射过程”具体是如何将几何图像转换成最终的3D网格的? 动态缝合算法在其中扮演什么角色?

原文内容

图片
来源:专知
本文约1000字,建议阅读5分钟
这项工作为下一代 3D 服装生成提供了一个可扩展、可解释且高性能的解决方案。


逼真且高效的 3D 服装生成一直是计算机视觉和数字时尚领域的长期挑战。现有方法通常依赖大型视觉语言模型来生成 2D 缝制样板的序列化表示,然后使用 GarmentCode 等服装建模框架将其转换为可仿真的 3D 网格。虽然这些方法产出了高质量结果,但它们往往面临推理速度慢的问题,耗时在 30 秒到 1 分钟之间。在这项工作中,我们推出了 SwiftTailor这是一个新颖的两阶段框架,通过紧凑的几何图像表示统一了缝制样板推理和基于几何的网格合成。SwiftTailor 包含两个轻量化模块:PatternMaker(一个能从多种输入模态预测缝制样板的高效视觉语言模型)和 GarmentSewer(一个高效的密集预测 Transformer,可将这些样板转换为新颖的服装几何图像,在统一的 UV 空间中编码所有服装裁片的 3D 表面)。最终的 3D 网格通过高效的逆映射过程重建,该过程结合了重网格化和动态缝合算法来直接组装服装,从而抵消了物理仿真的开销。在 Multimodal GarmentCodeData 上的广泛实验表明,SwiftTailor 在显著缩短推理时间的同时,实现了最先进的准确度和视觉逼真度。这项工作为下一代 3D 服装生成提供了一个可扩展、可解释且高性能的解决方案。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


我理解的逆映射过程,有点像把一张UV展开图“包裹”到人体模型上。几何图像提供了每个像素点对应的3D坐标,逆映射就是把这些坐标还原到3D空间中,形成最终的服装网格。

动态缝合算法,关键在于“动态”二字。它能根据服装的款式和人体姿态,自动调整缝合的方式和强度,让服装更好地贴合人体。

这个问题问到了 SwiftTailor 的核心! 几何图像表示,我的理解就是把服装的3D信息(比如裁片形状、空间位置等)编码到一张2D图像上,类似于UV贴图。 优势嘛,我觉得有两点:一是压缩信息,一张图比一堆3D模型数据量小多了;二是方便处理,图像处理技术很成熟,可以直接套用现成的模型,比如文中的 Transformer。