GPT-4o图像功能因GPU压力过大而限流,AI绘图能力突破阈值

GPT-4o图像功能因GPU压力过大而限流。AI绘图能力突破阈值,但效率与版权问题随之而来。OpenAI仍在积极改进。

原文标题:GPT-4o的P图太火了,GPU在融化,官方终于限流了

原文作者:数据派THU

冷月清谈:

OpenAI的GPT-4o图像生成功能因用户使用量过大导致GPU压力激增,官方已采取限流措施。文章指出GPT-4o的图像生成能力远超预期,但同时也引发了效率和版权等问题。GPT-4o通过细化Prompt、调用知识库和预处理参考图片等技术,显著提升了图像生成的质量和一致性,但同时也带来了更高的计算成本,并引发了对现有AI图像生成工具价值的讨论,以及版权方面的争议,例如吉卜力风格图像的广泛使用。OpenAI仍在不断改进GPT-4o,并计划向所有用户开放相关功能。

怜星夜思:

1、GPT-4o的图像生成能力已经超越了简单的“美工”级别,直逼“设计师”。那么,未来设计师的角色会发生怎样的变化?他们应该如何适应这种变化,提升自身价值?
2、文章提到GPT-4o在生成图像时会细化Prompt,调用知识库。那么,我们应该如何优化Prompt,才能更好地利用AI的知识和推理能力,得到更满意的结果?
3、GPT-4o的吉卜力风格图像生成引发了版权争议。那么,AI生成的内容,其版权应该归谁?是创作者、模型开发者,还是平台? 现阶段是否有比较好的解决办法?

原文内容

来源:人工智能前沿讲习

本文共1500字,建议阅读5分钟

本文将从OpenAI 的 GPT-4o 原生图像功能介绍。


「看到人们喜欢 ChatGPT 中的图片功能真是太有趣了,但是我们的 GPU 正在融化。」

上线不到 72 小时,OpenAI 的 GPT-4o 原生图像功能终于扛不住了。


近期,OpenAI CEO 山姆・奥特曼在社交平台 X 上宣布 ChatGPT 图像生成功能开始暂时受限。这一次,他没有具体说明次数限制是多少,但表示希望这项保障措施不需要实施很长时间,因为 OpenAI 正在尝试优化效率。

随着用户在互联网上发布大量 ChatGPT 生成的图像,传播开来之后再吸引到更多的用户,OpenAI 升级后的图像工具火爆程度远远超出了预期。其实 GPT-4o 生成图像的速度越来越慢,很多用户已经在抱怨了,周四时生成一张图片的速度就长达半个小时。

要知道,现在 GPT-4o 生图还是仅限于付费版用户的功能(Plus、Pro 和 Team 用户)。虽然奥特曼仍然许诺免费的 ChatGPT 账户未来每天可以获得三次生成机会,但是照目前的情况来看距离兑现反而还越来越远了。

看起来这一回,AI 的图片生成能力终于超过了某个阈值,切实地在重塑着世界。

人们从 GPT-4o 生成的图像中会发现一些令人毛骨悚然的细节,可以看出 AI 是能够理解你生成图片背后想要表达的含义。这说明 GPT-4o 的绘图能力源自 LLM 本身,并不是像以前那样简单地调用专门的生图模型(Dall-E)。经过了最新的思维链流程,AI 充分结合了自身的知识,能够实现更好的反馈。

用 GPT-4o 生成的图片

原生多模态的大模型是如此的强大,对此很多业内人士已经开始认为,当下一些明星 AI 创业公司开发的图像生成工具、RAG 工具、AI IDE、工作流、智能体等会在基础大模型能力提升之后变得不值一提。

毕竟如果把 GPT-4o 比作一个知识渊博,又有理性的设计师,那么 Stable Diffusion 还仅局限于美工的程度。

OpenAI 曾报告说,GPT-4o 生图能力的大幅提升源自于一系列技术改进,在执行生成任务的过程中,AI 会对人类提出的 Prompt 进行细化,编写出一个更加详细的英文版提示词。它还会充分调用模型内已有的知识库和对话上下文,并对人们上传的参考图片预先进行转化处理。

由此生成的图片可以轻松获得人们构想的效果,具备完美的风格一致性,一举让此前还属于玩具的图像生成工具成为了兼具准确性与实用性的强大工具。

当然,这一切都是建立在更加复杂的推理和计算基础上的。目前的 GPT-4o 在效率、逻辑上也存在一些问题。比如奥特曼的推文下有人就在质疑:我试图生成辛普森一家风格的图片,ChatGPT 算完了才回复我「受到版权限制无法生成」,为什么不在生成图片之前就限制呢?


说到生成图像的风格,其实又引出了另一个问题:整个互联网上大家一直在生成的吉卜力风格的却不受版权限制,这是否也是一种双标?

自从奥特曼换了头像带起节奏,很多人在用 GPT-4o 生成吉卜力工作室画风的图像,有的人做出了表情包开始卖,也有人顺着这股风潮开始推出滤镜 App,结果有网友开始恶搞,假称吉卜力终于忍无可忍了,发来了律师函:


或许在 OpenAI 改进好大模型之前,这股 GPT-4o 改图的风潮就会因为其他层面的问题而受到影响。

不过 OpenAI 并没有停止前进。他们又宣布了 ChatGPT 的另一波更新:

更新后的 GPT-4o 功能已面向所有付费用户开放。OpenAI 表示,免费用户将在未来几周内获得相同功能。

AI 引发的革命,还在继续。

参考内容:
https://x.com/sama/status/1905296867145154688

编辑:王菁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

我觉得Prompt优化不仅仅是语言上的技巧,更重要的是对AI模型能力的理解。你要知道它擅长什么,不擅长什么,然后有针对性地设计Prompt。比如,可以尝试使用一些AI设计社区里流行的Prompt模板,或者参考一些优秀作品的Prompt。

Prompt工程是门学问啊!我的理解是,Prompt要尽可能清晰、具体,避免模棱两可的描述。可以尝试使用一些关键词,引导AI理解你的意图。另外,提供一些参考图片或者风格描述也有帮助。总之,把AI当成一个设计师,你要清楚地告诉它你的需求。

这个问题很有意思!我觉得设计师的角色会从纯粹的执行者变成创意指导和AI的调教师。他们需要更懂用户需求,引导AI生成更符合预期的作品,并在此基础上进行润色和创新。所以,设计师要更懂设计背后的逻辑,而不是只会用软件操作。

要我说这个问题要一分为二的看,如果AI模型训练时使用了大量未授权的素材,那生成的内容本身就存在侵权风险。这种情况下,模型开发者肯定要承担责任。但如果是用户自己上传的素材,然后用AI进行处理,那责任可能就在用户身上了。总而言之,现在的AI版权问题还是一团乱麻。

这个版权问题太复杂了!现在法律上还没有明确的规定。我的理解是,如果创作者只是简单地使用AI生成图像,没有付出足够的创造性劳动,那可能很难主张版权。但如果创作者对AI生成的内容进行了大量的修改和创新,那应该可以享有版权。

与其说是优化Prompt,不如说是优化你的想法。在prompt前,先花点时间思考清楚你想要什么,把你的想法分解成具体的步骤,然后再用清晰的语言表达出来。别指望AI能猜透你的心思,它只是个工具而已。

我觉得这个问题应该从利益分配的角度来考虑。模型开发者提供了技术,创作者付出了劳动,平台提供了服务,大家都应该从中获得一定的回报。可以考虑建立一个版权共享机制,让各方都能从中受益。

AI再厉害,也只能模仿和组合已有的东西,真正的创新还是得靠人脑。未来设计师的核心竞争力应该是独特的审美、深刻的洞察力和解决问题的能力。与其担心被AI取代,不如把AI当成工具,让自己变得更强大!

悲观一点看,如果AI真的能完全替代设计师的重复性工作,那市场对设计师的需求肯定会减少。但乐观一点看,这也会倒逼设计师转型,去做更有价值、更有创造性的工作。比如研究用户体验、探索新的设计风格等等。总之,拥抱变化才是王道!