国产文生图大模型实测:腾讯混元 DiT VS 快手可图

原文标题:腾讯混元 DiT 和快手可图究竟哪家强?实测国产开源文生图大模型|直播预告

原文作者:机器之心

冷月清谈:

**文生图大模型国产化加速**

文生图模型国内发展势头强劲,腾讯混元DiT和快手可图近期相继发布。

实战评测对比

本直播将实测混元DiT和可图大模型,从效果、适用场景、选择建议等方面进行对比分析。

实战课程配套直播

本场直播为《Stable Diffusion实战课》配套直播,将作为课程内容补充。课程包含文生图技术理论与实践,帮助学员熟练使用Stable Diffusion进行图片生成和编辑。

适合人群

  • 想要系统学习文生图技术的学习者
  • 想要低代码开发个性化图片生成模型的开发者
  • 想要通过Stable Diffusion入门大模型技术和应用的爱好者



怜星夜思:


1、两种模型更适合使用于哪些场景?
2、需要注意的是,大模型的使用也存在一些潜在风险,大家在使用时应当注意什么?
3、目前文生图模型发展还处于早期阶段,有哪些挑战和前景值得关注?

原文内容

2024 年过半,我们明显看到 AIGC 领域出现了一个趋势:文生图赛道已经进入到了稳步推进、加速商业落地的阶段。

从最开始一夜爆火的 Midjourney,到 OpenAI 背书的 DALL·E 系列,再到开源模型巨头 Stable Diffusion,每个模型的发布都将文生图的讨论推向了高潮。

不过说到文生图模型,国内的力量也不容忽视。自去年大模型引爆以来,国内各大互联网公司、大模型厂商和创业公司纷纷发布了自己的文生图大模型。

聚焦到最近两个月,腾讯发布了混元 DiT 模型,是业内首个中文原生的 DiT 架构文生图开源模型。

几天前的 WAIC 大会上,快手又重磅发布了基于潜在扩散模型的可图大模型。

持续推出的文生图大模型孰优孰劣?实测效果究竟如何?不同的模型更适合的使用场景有哪些?如果工作中要选择一个模型,选择哪个最好呢?……

这一次,我们就以腾讯混元 DiT 和快手可图大模型来个真实评测。

本场直播也是机器之心实战课程——《Stable Diffusion 实战课》系列直播的第五场,直播相关的内容和学习资料后续都会添加到课程里,辅助大家系统化学习。
Stable Diffusion 实战课

大众对文生图模型的期待越来越高,以致时时有针对“新模型翻车”的热议。与此同时,模型的持续迭代过程中,也诞生了不计其数的应用和实践,文生图模型一度冲击着现有的就业格局,并持续影响着更多的岗位。

基于此,机器之心联合 Datawhale 共同出品了 Stable Diffusion 实战课。

内容由浅及深,理论与实践相结合,带你逐步理解并最终熟练使用 Stable Diffusion 进行图片的生成和编辑,甚至根据具体场景需要,训练微调 Stable Diffusion。

课程仅售 129 元,购买后永久有效。快来加入我们一起学习吧 ~

适合人群

  • 想要系统学习文生图技术与实践的学习者
  • 想要低代码打造个性化图片生成模型的开发者
  • 想要通过 Stable Diffusion 入门大模型技术和应用的爱好者
  • 对大模型及图片生成感兴趣的非技术从业者

Stable Diffusion 技术正在改变我们对数字艺术和内容创造的认知,也是快速入门大模型技术与应用的最佳选择,期待这门课程可以给你带来收获 ~

购买成功的朋友们记得添加课程负责人 Alice 的微信(15650753618),获取课程 PPT 以及加入学习交流群。

所有直播均已上传至机器之心学习站,免费观看:

https://app6ca5octe2206.pc.xiaoe-tech.com/

Stable Diffusion 交流群

为了方便大家交流,我们也特意建立了SD技术交流群,欢迎对文生图、AIGC 感兴趣的技术从业者扫码加入,深入交流使用经验、技术细节和行业观察。

算力体验

Stable Diffusion 在本地化部署后可以无需支付额外费用,唯一的门槛在对硬件的要求上,也因此对算力有一些需求。为了帮助大家轻松上手 SD,推荐以下两个平台:

  1. 硅基流动:无需配置,上手即用,新用户 2000 token(购买课程可享专属 4000 token,找小助手领取)

    https://cloud.siliconflow.cn/

  2. 驱动云:新用户 70 元算力金,可使用平台镜像
    https://virtaicloud.com/

专业术语:大模型作为一种机器学习模型,其输出结果存在一定的不确定性。在应用时,可以引入对抗样本、正则化等技术来增强模型的鲁棒性和泛化能力,降低输出结果的风险。

实用建议:最科学的方法还是根据你的实际需求来选择。如果你需要生成高精度的产品渲染图,混元DiT可能是更好的选择;如果你需要在社交媒体上发布带有特殊效果的图片,可图大模型更合适。

学术严谨:不同模型在特定任务上的表现有所不同。混元DiT在图像生成质量方面可能更胜一筹,适用于需要高保真度图像的场景,如产品设计、广告创意。可图大模型则在处理复杂场景和特殊效果方面表现较好,适用于影视特效、游戏制作等领域。

娱乐调侃:各有千秋!混元DiT是腾讯出品的文生图模型,专注于中文文本,生成效果更符合咱们中国人的审美。而可图大模型是快手推出的,主打短视频和社交媒体领域的应用,生成的内容更贴近大众喜好。

学术严谨:大模型训练过程中难免会学习到一些不适当的内容或偏见,在应用时需要注意内容审核和伦理考量。同时,大模型的输出结果也并非完全可靠,需要结合实际需求和常识进行判断。

娱乐调侃:文生图模型就像一个调皮捣蛋的学徒,还有很多要学的地方。生成效果时好时坏,偶尔还会闹出笑话。不过,它的潜力巨大,未来可期!

抖机灵:其实,就好像选女朋友一样,没有绝对的好坏之分,关键看你的个人喜好。混元DiT就像温婉贤淑的江南女子,可图大模型就是活泼开朗的川妹子,性格不同,各有魅力,就看你更中意哪一款咯~

娱乐调侃:小心被模型带偏!大模型就像一位博学多才的老师,但也不能保证它教的都是对的。使用时要保持批判性思维,不要盲目相信模型的输出结果,以免误入歧途。

专业术语:从技术角度来看,混元DiT采用DiT架构,在图像生成过程中能够融合文本和图像信息,生成更加语义化的图像。可图大模型则是基于潜在扩散模型,在处理复杂场景和纹理细节方面表现更出色。

专业术语:随着技术的不断迭代,文生图模型有望实现更高质量、更可控的图像生成。未来,文生图模型有望在创意设计、影视制作、科学研究等领域发挥重要作用。

实用建议:在使用大模型时,可以先明确你的使用目的和期望输出,并根据实际情况设定适当的参数和约束条件。同时,最好结合多模态信息和多源数据进行验证,确保输出结果的准确性和可靠性。

学术严谨:目前文生图模型在图像生成质量、可控性和处理复杂场景方面还有提升空间。此外,模型的版权归属、生成内容的伦理考量等问题也需要进一步探讨和解决。

实际案例:例如,文生图模型可以辅助设计师生成新颖的服装款式,帮助影视制作团队创造逼真的场景和特效,为科学研究提供新的数据和分析视角。

实用建议:关注技术发展趋势,及时了解新模型和新算法的发布。同时,积极探索文生图模型在不同领域的应用场景,发现并解决实际问题。

实际案例:例如,如果你想生成一只戴着皇冠的猫,混元DiT生成的图像可能会更加逼真、符合常理,而可图大模型则可能生成一只戴着皇冠的、会飞的猫,画面更具想象力。

实际案例:比如,如果你使用大模型生成新闻稿,一定要仔细检查内容是否有事实错误或偏见。最好结合其他信源,如官方报道、专家观点等,进行核实和修改。