OmniSVG:复旦&阶跃星辰发布,挑战3万Token极限的SVG矢量图生成大模型

复旦与阶跃星辰联合发布OmniSVG,一个可处理3万Token的SVG矢量图生成模型,支持多模态输入,并开源大规模数据集MMSVG-2M。

原文标题:好玩!复旦与阶跃星辰联合发布SVG矢量图生成大模型OmniSVG!挑战3万Token极限

原文作者:机器之心

冷月清谈:

复旦大学与阶跃星辰联合发布了OmniSVG,一个能够生成高质量、复杂SVG矢量图的统一模型。该模型通过参数化SVG,解耦结构逻辑与几何信息,解决了传统方法中存在的上下文窗口长度限制和数据匮乏问题。OmniSVG支持文本到SVG、图像到SVG和角色参考生成SVG等多种生成模式,能够处理高达3万个token的SVG,并开源了包含200万个SVG样本的MMSVG-2M数据集和MMSVG-Bench评测平台。实验结果表明,OmniSVG在指令遵循性和生成SVG的美观性方面均优于现有方法,具有在专业SVG设计工作流中应用的巨大潜力。然而,该模型在处理复杂样本时生成时间较长,未来可通过融入更多样化的图像风格进行协同训练以提升鲁棒性。

怜星夜思:

1、OmniSVG通过解耦结构逻辑和几何信息来避免“坐标幻觉”,这个思路在其他AI生成领域是否有借鉴意义?例如,AI绘画如何避免生成不符合物理规律的图像?
2、OmniSVG目前生成复杂SVG需要较长的生成时间,你认为未来可以通过哪些技术手段来优化生成速度?
3、MMSVG-2M数据集的开源对于SVG生成领域有哪些积极意义?你认为未来还需要构建哪些类型的SVG数据集?

原文内容


在日常生活中,SVG(可缩放矢量图形)被广泛应用于网页设计、图标、徽标等领域。SVG 图形因其可缩放性和清晰度,在以下场景中得到了广泛应用:


  • 网页设计:用于制作响应式图标、按钮和装饰元素,确保在不同设备上显示清晰。

  • 品牌标识:企业徽标、品牌图形等,保持高质量的视觉效果。

  • 用户界面设计:应用程序和网站的界面元素,如导航栏、菜单图标等。

  • 教育与培训材料:用于制作插图、流程图和示意图,帮助信息传达。


然而,创建这些图形通常需要专业的设计技能和工具。对非专业人士而言,存在一定的门槛。因此,开发自动化的 SVG 设计与生成工具显得尤为关键。


现有基于优化的方法通过优化可微分的矢量图形光栅化器,迭代地调整 SVG 参数。这些方法在生成 SVG 图标方面有效,但在处理复杂样本时计算开销较大,且生成的输出缺乏结构,存在冗余的锚点。


在现有自回归 SVG 生成方法中,存在两个主要局限性:


  1. 上下文窗口长度限制:由于模型只能处理有限长度的输入序列,这限制了其生成复杂 SVG 内容的能力,现有自回归方法利用 Transformer 模型或预训练的大型语言模型(LLM),直接生成表示 SVG 的 XML 参数或代码,然而复杂 SVG 需要的上下文长度将超出现有 LLM 上下文窗口长度,从而限制了复杂 SVG 的生成;

  2. 复杂 SVG 数据匮乏:缺乏包含复杂 SVG 内容的大规模数据集,限制了模型的学习和生成能力。现有数据集通常包括 icon 级别的 SVG 或者较为简单的插画 SVG,目前角色复杂度级别的 SVG 数据集仍然是空缺。


项目中,OmniSVG 引入 SVG 参数化的表达方式,自回归地生成高质量、复杂的 SVG。它通过多种生成模式展示了非凡的多功能性,包括文本到 SVG、图像到 SVG 和角色参考生成 SVG,使其成为适用于各种创意任务的强大而灵活的解决方案。



  • 论文标题: OmniSVG: A Unified Scalable Vector Graphics Generation Model

  • 论文作者:Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang

  • 作者单位:复旦大学、阶跃星辰

  • 论文地址:https://arxiv.org/pdf/2504.06263

  • 项目主页:https://omnisvg.github.io/ 

  • 代码地址:https://github.com/OmniSVG/OmniSVG

  • HuggingFace:https://huggingface.co/OmniSVG


值得一提的是,OmniSVG 在发布的当天就成为 Huggingface daily paper upvoted 的第一名,并成为当周排名第二热门的论文。OmniSVG 在 GitHub 上线 7 天,已经斩获了 1.3k star,在国外媒体获得广泛关注。


Huggingface当周第二热门论文



让我们先来看一些生成效果:


图片


图片


图片


1.统一的多模态复杂 SVG 生成框架


OmniSVG 是首个利用预训练视觉语言模型(VLM)进行端到端多模态复杂 SVG 生成的统一框架。通过将 SVG 的坐标和命令参数化为离散的标记,OmniSVG 将结构逻辑与低级几何信息解耦,缓解了代码生成模型中常见的 「坐标幻觉」问题,生成生动且多彩的 SVG 结果。并且得益于下一标记预测的训练目标,OmniSVG 能够在给定部分观测的情况下,生成多样化的 SVG 内容。与传统的自回归 SVG 生成方法相比,OmniSVG 能够处理长度高达 3 万个token 的 SVG,促进了复杂高质量 SVG 的生成。基于预训练的 VLM,OmniSVG 能够理解视觉和文本指令,合成可编辑的高保真 SVG,适用于从图标到复杂插图和动漫角色等多种领域。



OmniSVG 基于预训练的视觉语言模型 Qwen2.5-VL 构建,并集成了 SVG 分词器。该模型将文本和图像输入分词为前缀分词,而 SVG 分词器则将矢量图形命令编码到统一的表示空间中。


图片


2.MMSVG-2M:包含 200 万个 SVG 样本


项目还开源了 MMSVG-2M 数据集和 MMSVG-Bench 评测平台。MMSVG-2M 是一个大规模的 SVG 数据集,包含了 200 万个 SVG 样本,涵盖了网站图标、插图、平面设计、动漫角色等多种类型。MMSVG-2M 数据集的 SVG 样本,涵盖了网站图标、插图、平面设计、动漫角色等多种 SVG 类型,如下图所示。



3. 实验结果


为了进一步推动 SVG 生成技术的发展,MMSVG-Bench 评测平台专注于以下三个主要任务,分别是文本转 SVG、图像转 SVG 以及角色参考生成 SVG


论文在 MMSVG-2M 数据集(图标、插图和角色)上将所提出的方法与 SOTA 文本转 SVG 和图像转 SVG 均进行了比较。OmniSVG 在指令遵循性和生成的 SVG 的美观性方面均优于现有的最佳方法。


OmniSVG 和最先进的文本转 SVG 任务的比较结果。


OmniSVG 和最先进的图像转 SVG 任务的比较结果。


通过使用自然角色图像和 SVG 数据对进行训练,OmniSVG 能够通过图像角色参考生成角色 SVG。


结论与局限性


综上所述,OmniSVG 是一种统一的可缩放矢量图形(SVG)生成模型,利用预训练的视觉 - 语言模型(VLM)进行端到端的多模态 SVG 生成。通过将 SVG 命令和坐标参数化为离散标记,OmniSVG 有效地将结构逻辑与低级几何信息解耦,提高了训练效率,同时保持了复杂 SVG 结构的表现力。此外,OmniSVG 在多个条件生成任务中表现出色,显示出其在专业 SVG 设计工作流中应用的巨大潜力。 


不过,在推理过程中,OmniSVG 会为复杂样本生成数以万计的标记,这不可避免地会导致相当长的生成时间。同时,在可预见的未来,将 SVG 风格的图像和来源更丰富的自然图像,融入协同训练工作流,有望提升模型对输入图像风格的鲁棒性。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

同意楼上的看法!解耦的思路确实很有启发性。我觉得还可以从数据集入手,构建包含更多结构信息的训练数据。例如,在AI绘画的数据集中加入场景的深度信息、物体之间的遮挡关系等,帮助模型更好地理解三维空间结构。此外,引入物理引擎进行约束也是一个可行的方向。

这是一个非常深刻的问题!坐标幻觉本质上是模型无法准确理解和表达结构关系。在AI绘画中,可以借鉴这种解耦思路,例如将画面结构(布局、透视关系)和纹理细节分开处理。先用一个模型生成符合物理规律的骨架,再用另一个模型填充细节,这样或许能减少不合理图像的出现。当然,具体实现还需要一些精巧的设计。

除了风格和主题,我觉得还可以关注SVG的语义信息。目前的数据集可能只包含SVG的几何信息,缺乏对SVG中各个元素的语义标注。如果能标注出哪些是人物、哪些是建筑、哪些是植物,就可以更好地控制SVG的生成,实现更高级的编辑功能。例如,可以实现语义级别的编辑,比如将SVG中的人物替换成另一个人,或者改变建筑的风格。

除了硬件层面的优化,算法层面的优化也很关键。可以尝试用更高效的解码算法,例如减少自回归解码的步数。或者借鉴图像压缩的思想,用更紧凑的编码方式来表示SVG,减少需要处理的数据量。另外,是不是可以考虑先生成一个低精度的SVG,然后再逐步细化,类似于图像的渐进式加载?

我觉得未来的趋势是云端生成。把模型部署在云端,利用云端强大的计算资源,可以实现更快的生成速度。用户只需要上传文本或图像,就可以在几秒钟内得到高质量的SVG。这就像现在的AI绘画工具一样,用户不需要自己搭建环境,就可以轻松生成各种风格的图像。

我感觉并行计算是一个很重要的方向。SVG生成过程中的很多步骤,比如处理不同的图层、计算不同的路径,都可以并行进行。利用GPU或者专门的加速芯片,可以大幅提升生成速度。此外,对模型进行剪枝和量化,减少模型的大小和计算复杂度,也能带来一定的提升。

MMSVG-2M的开源绝对是福音!之前做相关研究苦于没有足够的数据,现在有了这么大规模的数据集,可以更好地训练模型,提升生成效果。我觉得未来可以构建更多具有特定风格或主题的SVG数据集,例如艺术风格的、科技风格的、儿童插画风格的等等,满足不同用户的需求。另外,如果能加入SVG的编辑历史信息,对于研究SVG的编辑和优化也很有帮助。

我更看重数据集的多样性。现在的数据集可能主要来源于网络,缺乏一些真实场景下的SVG数据,例如手绘的草图、照片转换的SVG等等。如果能收集到更多样化的数据,就可以提升模型的鲁棒性和泛化能力,使其能够处理各种复杂的输入。

其实我觉得“坐标幻觉”不仅仅是技术问题,也是一个认知问题。AI模型缺乏人类的常识和经验,所以才会犯一些在我们看来很低级的错误。要解决这个问题,可能需要让AI模型学习更多的知识,甚至模拟人类的认知过程。