字节跳动Seedream 3.0:文生图模型新星,多项指标超越GPT-4o

字节跳动Seedream 3.0文生图模型霸榜,技术报告揭秘其在数据、预训练和后训练上的多项升级,部分性能超越GPT-4o。

原文标题:Mogao=Seedream 3.0?霸榜数天,神秘文生图模型曝光(附技术报告)

原文作者:机器之心

冷月清谈:

字节跳动Seed团队推出的文生图模型Seedream 3.0在Artificial Analysis榜单上名列前茅,甚至一度超越GPT-4o等模型。该模型在真实感、动漫、人像等多个风格和维度上表现出色,尤其在海报设计和密集文本渲染方面优势明显。技术报告显示,Seedream 3.0在数据过滤、预训练和后训练等方面进行了大量底层技术升级,例如引入缺陷感知型训练范式、双轴协同数据采样框架等。在生成质量方面,Seedream 3.0色彩更饱和,但在连续性图片生成方面仍有提升空间。该模型的推出,预示着文生图技术正朝着更高质量、更高效率和更广泛应用的方向发展。

怜星夜思:

1、Seedream 3.0 在密集文本渲染上表现出色,那么在实际应用中,哪些场景会特别需要这种能力?除了海报设计,还有什么其他的应用方向?
2、文章提到 Seedream 3.0 在人像生成方面能有效消除“AI 感”,生成的皮肤质感接近专业摄影水平。那么,你认为“AI 感”具体体现在哪些方面?如何进一步提升 AI 生成人像的真实感?
3、Seedream 3.0 技术报告中提到,团队使用了缺陷感知型训练范式,保留了部分带有缺陷的样本。这种做法的优势是什么?在实际应用中,如何平衡数据质量和数据数量?

原文内容

机器之心报道

编辑:泽南、Panda


霸榜数天的神秘文生图模型 Mogao,什么来头?


这两天,不少业内人已在询问「这个魔法般模型」的出处。



有人对模型效果颇为认可,好奇如何体验。



神秘模型 Mogao 的横空出世,始于近期它在盲测打分的 Artificial Analysis 文生图排行榜上迅速蹿升,一度排名第一,位列 GPT-4o、Recraft V3、Imagen 3、Midjourney v6.1 等模型之前。


从社交媒体也能看到,网友对该模型近乎一水的好评。



昨晚,Mogao 的神秘面纱终于被揭下。


它背后是图像生成基础模型 Seedream 3.0,来自字节跳动 Seed 团队。



在 Artificial Analysis 文生图榜单上,除了拿下总榜第一,Seedream 3.0 在真实、图形设计与数字渲染、动漫、卡通与插图、复古风、传统艺术等不同风格,以及文字、商务、人像、自然、幻想等不同维度均表现领先。


图片从左至右展示了在真实感、动漫、人像这三个细分项上的前 10 名。


尤其海报设计方面,Seedream 3.0 表现尤为突出,不仅小字崩坏率低,输出图像的设计感也很强。




众所周知,Seedream 3.0 已于 4 月初在字节自家的即梦豆包平台上线,其在文字生成和排版上的出色能力备受关注。


而就在今天,字节跳动 Seed 团队也对外发布了 Seedream 3.0 技术报告,详细披露了模型的性能表现和技术细节。


机器之心带大家一睹为快。



  • 技术报告:https://team.doubao.com/zh/tech/seedream3_0

  • arXiv:https://arxiv.org/abs/2504.11346


定性定量评估俱佳

文生图 SOTA 实至名归


Seedream 3.0 不久前开放使用时,我们已经专门体验了一番,参阅《》。


总结起来,相比于市面上其它同类产品,Seedream 3.0 优势体现在 —— 速度与质量兼备、文字准且美、原生支持 2K 图像输出三个方面。


根据官方披露的技术报告也能发现,模型在结构、指令遵循、美感、人像、文本可用性等多个维度均表现突出。



综合能力之外,团队还强调了密集文本渲染和逼真人像生成两方面能力。


具体来说,在生成结果中,Seedream 3.0 中文和英文字符的文本可用率均达到 94%,基本让文本渲染不再成为图像生成的掣肘。



除了可用率的整体提升之外,相比 2.0 版本,Seedream 3.0 渲染密集文本的能力也有重大提升,同时其小字符生成的准确率和文本布局的自然度也显著明显进步。



在人像真实感方面,团队为评估模型表现,专门构建了一个采用 Elo 竞赛机制、包含 100 个提示的人像评估新基准,囊括表情、姿势、角度、发质、肤质、服饰、配饰等人像生成的方方面面。


经过超过 50000 轮的公开评估,Seedream 3.0 与 Midjourney V6.1 同处第一梯队,相比其他模型优势明显。



从示例可以看到,Seedream 3.0 能有效消除人像生成的「AI 感」,可生成带有皱纹、绒毛和疤痕等真实特征的皮肤质感,逼真度已基本接近专业摄影水平。



机器之心还在实际评测发现,Seedream 3.0 不需要像之前一样执行超分辨率操作,而是可以一键直出 2K 分辨率图像。




对比其他模型,Seedream 3.0 也展现出极快的生成效率。


根据实测体验,Seedream 3.0 基本十几秒左右就能生成 4 张 2K 分辨率待选图像,生成高清图像(1K)时长更是短至数秒。相较之下,业界同类模型生成一张高清内容的耗时基本在 10 秒以上,而效果较好的 GPT-4o 生成一张高清图耗时往往超过 1 分钟。


图片


从数据过滤到后训练

大量底层技术升级


Seedream 3.0 究竟是如何炼成的?在技术报告中,我们看到了 Seed 研究团队在数据、预训练和后训练上的多项工作。


数据准备阶段


在数据上,因之前偏保守的数据过滤策略会极大限制可用数据集大小,团队引入了一种全新的缺陷感知型训练范式


该范式包含一个专门的缺陷检测器,可通过边界框预测精确定位缺陷区域。当检测到的缺陷总面积小于图像空间的 20%(可配置阈值)时,就会选择保留这些样本(之前会被丢弃),同时使用掩码隐含空间优化。


团队认为,这种创新方法的效果很好:在保证模型稳定性的同时,将有效训练数据集扩展了 21.7%


为了优化数据分布,他们提出了一个双轴协同数据采样框架,可从视觉形态和语义分布两个维度进行联合优化。


团队还自主研发了一套跨模态检索系统,进一步增强数据生态系统的协调性,针对图像 - 文本对,建立了一个联合嵌入空间。该系统在所有基准测试中均取得了最佳性能。


预训练阶段


Seedream 3.0 的基本架构设计继承自 2.0 版,采用 MMDiT 来处理图像和文本 token ,并捕捉两种模态之间的关系。不过,在 Seedream 3.0 中,团队增加了基础模型的总参数,并引入了多项关键改进,提高了模型的可扩展性、泛化能力和视觉语言对齐能力,其中包括:


混合分辨率训练:每个训练阶段中,不同宽高比和分辨率的图像会被打包在一起,首先在平均分辨率为 256² 的图像上预训练模型,然后在更高分辨率的图像(从 512² 到 2048²)上对其进行微调。Seed 团队还采用了尺寸嵌入作为另一个条件,使模型能够感知目标分辨率。


跨模态 RoPE:Seedream 2.0 中的 Scaling RoPE 被扩展成了跨模态 RoPE,从而进一步增强了视觉文本 token 的对齐效果和文本渲染精度。其中,文本 token 被视为形状为 [1, L] 的二维 token,并对文本 token 应用二维 RoPE。


后训练阶段


Seedream 3.0 后训练流程则包含以下几个阶段:持续训练(CT)、监督微调(SFT)、人工反馈对齐(RLHF)和提示工程(PE)。各阶段效果对比如下图所示。



为进一步提升美感,在新模型上,团队专门训练了多个版本的描述模型。


这些模型能在审美、风格、排版等专业领域提供精准的描述,确保 Seedream 3.0 能够更有效地响应相关提示,不仅增强了模型的可控性,也提升了提示工程后模型的性能。


另外在奖励模型上,Seedream 3.0 使用了 VLM 作为奖励建模框架,而不再是 CLIP,并提升了其参数量。


团队借鉴语言模型中生成式 RM 经验,进行奖励建模,依靠 LLM 原本的 Scaling 能力,提升奖励准确性与鲁棒性;此外,团队还将奖励模型参数量从 0.8B 拓展至 20B 以上。


推理加速相关工作


为促使 Seedream 3.0 拥有更高生成效率,团队专门针对推理加速进行了优化。


框架方面,模型采用了 Hyper-SD 和 RayFlow。这使得生成路径得到了优化,每个数据点会被引导至特定实例的目标分布,从而实现每个样本的轨迹定制。这可显著减少路径碰撞,并提高生成稳定性和样本多样性。


该团队还引入一种重要性采样机制来提升效率,其可以学习在训练过程中关注最关键的时间步。此外,Seedream 3.0 的框架也支持高效的少步数采样,且不会影响生成质量。


打榜一时超越 4o 

就比它更强?


看到这,相信不少人也会提问,Seedream 3.0 比起 GPT-4o 如何?打榜超过就一定强么?


在技术报告中,我们发现团队专门对比了 Seedream 3.0 与 GPT-4o 的表现。需要强调的是,GPT-4o 本质上是一款文本 + 图像的多模态模型,而这里的对比仅限于图像生成能力。不过,通过一些案例比较,该团队也找到了这两个模型各自的优势和短板。


例如密集文本渲染方面,团队发现 GPT-4o 在小英文字符的准确性和某些 LaTeX 符号的渲染方面表现出色。然而, GPT-4o 在渲染中文字体方面表现相对不足,相比之下,Seedream 3.0 可以轻松生成密集的中文文本,并且在排版和构图美感方面优于 GPT-4o。


下图给出了一些示例,其中上列来自 Seedream 3.0,下列来自 GPT-4o。



此外,团队还系统性地对比了包括颜色、纹理、清晰度和美观度在内的生成质量。


下图展示了多组示例,每组图像的左图来自 Seedream 3.0,右图来自 GPT-4o。


在生成质量方面,Seedream 系列模型色彩更为饱满,GPT-4o 生成图像部分伴有噪点。



值得一提的是,在连续性图片生成(比如:漫画、流程图)方面,GPT-4o 的能力依然让人感到惊艳,这也是 Seedream 3.0 需要进一步提升之处。


文生图开卷

全面落地时代已来


最近,文生图模型又开始卷到飞起,字节 Seedream 3.0 正式亮相的同时,仅在国内,就有好几家 Artificial Analysis 上榜模型同期发布。


从多模态对齐到高分辨率输出,再到密集文字渲染与人像真实感优化, Seedream 3.0、GPT-4o 等模型在这一波集体跃迁,MJ、Flux 等曾经的明星模型被逐渐淡忘。而背后的技术演进、系统设计哲学与产品化思路,也将越来越多地决定 AI 在真实世界中的落地路径与生态潜力。


一轮新竞赛已经悄然开场,这些新模型在吸引关注的同时,也有望催生出全新的创作范式。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

楼上两位说的都挺靠谱,我再补充一个偏娱乐向的脑洞:

* 表情包生成:现在大家斗图都喜欢用带文字的表情包,如果能生成文字清晰、排版精美的表情包,肯定会受欢迎,哈哈哈!
而且,这也可以和现有的一些AI绘画工具结合,用户只需要输入文字,就能自动生成各种有趣的表情包,想想就觉得很好玩~

“AI 感”这个词很有意思,它指的是AI生成的内容,尤其是人像,给人一种不自然、缺乏细节的感觉。 具体来说, “AI 感” 可能体现在以下几个方面:

1. 皮肤质感:AI 生成的皮肤通常过于光滑,缺乏毛孔、皱纹等真实细节。
2. 光影效果:AI 生成的光影可能不自然,缺乏层次感和立体感。
3. 表情和动作:AI 生成的表情和动作可能过于生硬,缺乏自然的情感表达。
4. 细节处理:AI 生成的头发、服饰等细节可能不够精细,缺乏真实感。

要进一步提升 AI 生成人像的真实感,我认为可以从以下几个方面入手:

1. 更真实的数据:使用更真实、更全面的数据集进行训练,尤其是包含各种肤质、光照条件和表情的人像数据。
2. 更精细的模型:设计更精细的模型结构,能够捕捉更多细节信息。
3. 更逼真的渲染:采用更先进的渲染技术,模拟真实的光影效果和材质质感。
4. 加入更多随机性:在生成过程中加入更多随机性,避免生成过于完美的“假人”。

总之,消除“AI 感”是一个长期而艰巨的任务,需要不断探索和创新。

个人认为,除了技术层面的提升,消除“AI 感”还需要关注伦理和社会层面的问题。

* 尊重真实性:AI 生成人像不能过度美化或扭曲事实,要尊重人像的真实性和自然美。
* 避免滥用:要防止 AI 生成人像被用于虚假宣传、诈骗等非法活动。
* 加强监管:要建立完善的监管机制,规范 AI 生成人像的使用。

只有在技术、伦理和社会层面都取得平衡,才能真正实现 AI 生成人像的健康发展。

谢邀,密集文本渲染的应用场景确实广泛,个人觉得以下几个方向值得关注:

* 法律文件/合同:自动生成包含大量条款和细则的法律文件,确保清晰可读,降低人工校对成本。
* 产品说明书/技术文档:生成详细的产品说明和技术文档,方便用户理解和使用。
* 金融报告:自动生成包含大量数据的金融报告,方便分析师进行数据分析。

总的来说,任何需要大量文本信息清晰呈现的场景,都是密集文本渲染的潜在应用领域。

提供一个不一样的思路,个人认为数据量和数据质量都需要,但是也需要考虑算力问题,如果算力不足,即使有大量的高质量数据,可能也无法吧模型的性能发挥到极致,所以也需要考虑算力成本。

缺陷感知型训练范式,感觉有点像“容错训练”的意思,让模型在不完美的数据中学习,反而能学到更多东西。

就像我们人类一样,也是在不断犯错中成长的嘛!

所以,我觉得与其追求完美的数据,不如拥抱数据的多样性,让模型在真实世界中更好地适应。

从一个普通用户的角度来说,我觉得目前的AI人像,眼神还是不够灵动,总感觉少了点“神韵”。不知道是不是因为训练数据的问题,或者模型还不够理解人类的情感。

希望未来AI能学会捕捉人类眼神中的细微变化,让生成的人像更加生动传神。

这个问题很有意思!我觉得密集文本渲染在很多场景下都有用武之地。

1. 信息图表:需要展示大量数据和文字说明的图表,清晰的文本渲染至关重要。
2. 游戏界面:很多游戏,尤其是策略类游戏,界面上需要显示大量信息,如果文字渲染不好,会影响玩家体验。
3. 教育领域:比如在线课程的PPT,或者电子书,都需要高质量的文字渲染。
4. 广告设计:除了海报,各种线上广告素材也需要清晰的文字,才能有效传递信息。
5. 漫画创作:漫画中经常有大量的对话气泡,清晰的文字是基本要求。

当然,这只是我想到的一部分,肯定还有更多有待挖掘的应用场景,一起期待Seedream 3.0以及其他文生图模型的发展吧!

缺陷感知型训练范式,这个思路很巧妙!

* 增强模型的鲁棒性:真实世界的数据往往是不完美的,包含各种噪声和缺陷。通过使用带有缺陷的样本进行训练,可以增强模型对噪声的抵抗能力,提高模型的泛化能力。
* 扩大数据集规模:传统的数据过滤策略可能会丢弃大量数据,而缺陷感知型训练范式可以保留更多可用数据,从而扩大数据集规模。
* 模拟真实场景:带有缺陷的样本更接近真实场景,可以帮助模型更好地理解真实世界的复杂性。

在实际应用中,平衡数据质量和数据数量是一个需要权衡的问题。我的看法是:

* 设定合理的缺陷阈值:根据具体应用场景,设定合理的缺陷阈值,避免引入过多低质量数据。
* 使用适当的掩码策略:对缺陷区域进行掩码处理,避免模型过度关注缺陷细节。
* 引入数据增强技术:使用数据增强技术,生成更多样化的数据,弥补数据集的不足。
* 持续优化数据质量:在模型迭代过程中,不断评估和优化数据质量,确保模型性能稳定提升。