CUBEDIFF利用多视角扩散模型轻松生成高分辨率360°全景图,文本控制精细,效果惊艳!
原文标题:【ICLR2025】CUBEDIFF:将基于扩散的图像模型重新用于全景生成
原文作者:数据派THU
冷月清谈:
与以往依赖等矩形投影或自回归生成的方法不同,CUBEDIFF简化了生成过程,并可以直接使用现有的多视角扩散模型。这种方法不需要关注层之间的对应关系,即可生成高质量的立方体映射。
CUBEDIFF支持精细的文本控制,可以生成高分辨率的全景图像,并且具有良好的泛化能力,能够在训练集之外的数据上也表现出色。无论是定性评估还是定量评估,CUBEDIFF都达到了最先进的水平。
怜星夜思:
2、CUBEDIFF提到了文本控制,具体是如何实现的?这种文本控制的精度和灵活性如何?
3、CUBEDIFF的泛化能力如何?在面对复杂场景或未见过的物体时,它能否生成合理的全景图?
原文内容
来源:专知本文约1000字,建议阅读5分钟
我们介绍了一种从文本提示或图像生成360°全景图的新方法。
我们介绍了一种从文本提示或图像生成360°全景图的新方法。我们的方法利用了3D生成领域的最新进展,通过使用多视角扩散模型来联合合成立方体映射的六个面。与依赖处理等矩形投影或自回归生成的先前方法不同,我们的方法将每个面视为标准透视图像,从而简化了生成过程并使现有的多视角扩散模型得以使用。我们展示了这些模型可以在不需要关注层之间的对应关系的情况下适应并生成高质量的立方体映射。我们的模型支持精细的文本控制,能够生成高分辨率的全景图像,并且在训练集之外也能很好地泛化,同时在定性和定量上都达到了最先进的结果。项目页面:https://cubediff.github.io/