字节Seedream 3.0发布:图像生成性能超越GPT-4o?

字节发布Seedream 3.0图像生成模型,号称在中文文本渲染和图像质量上超越GPT-4o。

原文标题:21 天追平 GPT-4o?字节 Seed 玩真格的

原文作者:AI前线

冷月清谈:

字节Seed团队发布新一代图像生成模型Seedream 3.0,该模型在文本渲染、美学质量、高分辨率输出和推理成本方面都有显著提升。Seedream 3.0支持原生2K分辨率生成,速度快,并针对数据训练了多个字幕模型,增强了对提示词的响应。在架构上,采用了MMDiT和混合分辨率训练策略,并使用视觉-语言模型(VLMs)作为奖励建模框架。字节在论文中宣称,Seedream 3.0在各项评测中均超越GPT-4o、Midjourney等模型,尤其在中文文本渲染、图像编辑一致性和画质方面表现更优。

怜星夜思:

1、Seedream 3.0宣称在图像生成方面超越GPT-4o,你觉得这个结论靠谱吗?有哪些因素可能影响我们的判断?
2、Seedream 3.0采用了MMDiT架构和混合分辨率训练策略,这些技术细节对图像生成质量有什么影响?对其他图像生成模型有什么借鉴意义?
3、字节Seedream 3.0的发布,对国内AI图像生成领域会产生什么影响?

原文内容

左右滑动查看更多图片

GPT-4o 在3月底掀起的“吉卜力”风潮过去还没多久,字节又加入了图像生成竞赛。

4月15日,字节Seed团队发布了中英双语图像生成基础模型 Seedream 3.0,主要在文本渲染能力增强、美学质量提升、原生高分辨率输出、高效推理成本方面进行了优化。

Seedream 3.0支持原生 2K 分辨率图像生成,无需后处理,同时兼容更高分辨率,适应多种比例输出。在不使用位置编码(PE)情况下,生成一张 1K 分辨率图像仅需约 3 秒,速度远超当前主流商用模型。

字节还针对 CT(对比学习)和 SFT(监督微调)阶段的数据,专门训练了多个版本的字幕模型。这些描述模型覆盖了美学、风格、版式等多个专业领域,极大增强了 Seedream 3.0 对提示词的响应能力。

Seedream 3.0 继续采用 MMDiT 架构来处理图像和文本的 token。团队采用混合分辨率训练策略,在每一阶段训练中,将不同纵横比和分辨率的图像打包在一起进行训练。为提高泛化能力,团队将 2.0 中的 Scaling RoPE 扩展为“跨模态 RoPE”,进一步增强图文 token 之间的对齐能力。

与2.0 中采用 CLIP 作为奖励模型不同,Seedream 3.0 使用视觉-语言模型(VLMs)作为奖励建模框架,将指令明确地构建为查询(Query),并通过“Yes”响应 token 的归一化概率来计算奖励值。奖励模型的规模也从 10 亿参数扩展到了 200 亿以上。

字节在论文中表示,在人工智能评测平台 Artificial Analysis 的公开测试中,Seedream 3.0 在多个维度表现领先,位居图文生成模型榜首,超越 GPT-4o、Midjourney v6.1、Imagen 3 等主流模型。

另外,字节还特地跟GPT-4o进行了对比。

OpenAI 的 GPT-4o 虽具强大多模态能力,但在图像生成方面仍存在短板。对比显示,Seedream 3.0 在中文文本渲染、图像编辑一致性和整体画质上表现更优。

GPT-4o 擅长英文小字与符号,但中文排版欠佳;图像编辑功能灵活,却难保原图一致性。SeedEdit 则在保留人物 ID 和提示词遵循上更稳健。画质方面,Seedream 图像更清晰自然,而 GPT-4o 常出现偏色和噪点。

我理解MMDiT架构有点像是一种解耦的思路,让模型更好地理解图像和文本之间的关系。混合分辨率训练就更直接了,通过让模型见多识广,避免它在特定分辨率下过拟合。这些trick其实挺常见的,关键在于字节是怎么把它们用好的。其他团队借鉴时,也要结合自身模型的特点来调整。

这些技术细节其实也指明了未来图像生成模型的一个发展方向,也就是精细化和高效化。以前的模型可能更注重规模和算力,但现在大家开始关注如何在有限的资源下,更好地利用数据和架构。所以,无论是MMDiT还是混合分辨率训练,都体现了这种趋势。图像生成,卷起来了!

MMDiT架构能够更好地处理图像和文本的token,这有助于提升图像生成的语义一致性,让生成的图像更符合文本描述。混合分辨率训练策略则可以提高模型的泛化能力,让模型能够处理不同比例和分辨率的图像。这些技术细节对于提升图像生成模型的质量都非常有帮助,值得其他模型借鉴。

除了信心,还有实际的推动作用。Seedream 3.0针对中文做了优化,这对国内用户来说非常友好。而且,字节作为一家大型互联网公司,有能力将这项技术推广到更多的应用场景中,比如内容创作、电商等等。这会加速AI图像生成技术在国内的普及。

个人感觉benchmark测试看看就好,实际体验才是王道。字节敢这么说,肯定有它的底气,不过具体是不是真的超过GPT-4o,还是得用户自己用过才知道。毕竟,每个人的需求不一样,对好坏的定义也不一样。说不定有人就是喜欢GPT-4o的风格呢?

我觉得最大的影响是,它提升了国内AI图像生成领域的信心。以前大家总觉得国外的模型更厉害,现在字节能做出这么好的模型,说明我们在技术上也有实力赶超。这会激励更多国内团队投入到这个领域,形成一个良性竞争的局面。

我觉得不能完全相信。虽然评测数据看起来不错,但评测平台和指标的选择可能会有偏差。而且,实际使用场景千差万别,Seedream 3.0可能在某些特定领域表现好,但在其他领域就不一定了。另外,GPT-4o的强项在于多模态,图像生成只是其中一部分,不能只看图像就下结论。

我更关注的是它对人才的吸引力。字节的Seed团队,肯定聚集了一批顶尖的AI工程师。Seedream 3.0的成功,会吸引更多人才加入这个团队,或者进入国内的AI图像生成领域。人才是创新的关键,有了人才,才能持续进步。说不定下一个超越GPT-4o的,就是我们自己培养的团队!