OpenAI 发布 GPT-4o 图像生成功能,与谷歌新模型“狭路相逢”

OpenAI 发布 GPT-4o 图像生成,集成至 ChatGPT,提升图像生成精准性与实用性。多项安全措施同步上线。

原文标题:凌晨“激战”!谷歌亮相新模型,OpenAI 紧急甩出 GPT-4o 动动嘴就能 P 图,网友:又要感谢 DeepSeek 了

原文作者:AI前线

冷月清谈:

OpenAI 发布了 GPT-4o 图像生成功能,该功能直接集成到 ChatGPT 中,用户现在可以使用 GPT-4o 在 ChatGPT 内部生成图像。GPT-4o 在文本集成、上下文理解、多对象绑定和风格适应等方面进行了改进,使得生成的图像在精准度、一致性和实用性上都有了显著提升。OpenAI 强调了安全性,通过 C2PA 溯源、屏蔽不良内容和推理增强安全性等手段,力求在创作自由和安全标准之间取得平衡。GPT-4o 图像生成功能已向 ChatGPT Plus、Pro、Team 及 Free 用户全面开放,开发者也将很快能通过 API 使用该功能。

怜星夜思:

1、GPT-4o 的图像生成功能在哪些方面超越了之前的模型?除了文章中提到的文本集成和上下文理解,你认为还有哪些潜在的优势?
2、OpenAI 在 GPT-4o 图像生成中强调了安全性,你认为这些安全措施能否有效防止滥用?还有哪些潜在的风险需要关注?
3、GPT-4o 图像生成功能对设计师和创意工作者来说,意味着什么?是机遇还是挑战?你认为他们应该如何应对?

原文内容

整理 | 冬梅

北京时间 3 月 26 日凌晨,谷歌发布了号称最强推理模型的 Gemini Pro 2.5,而在谷歌之前,OpenAI 率先开了场直播,发布了 GPT-4o image generation,图像生成技术模型。有趣的是,最近半年时间里,基本上谷歌的每次发布都会与 OpenAI 的直播“撞车”。

OpenAI 放出 GPT-4o 
原生多模态图像生成功能

OpenAI 表示:“从今天开始,OpenAI 将新的图像生成功能直接集成到 ChatGPT 中——该功能被称为‘ChatGPT 中的图像’。用户现在可以使用 GPT-4o 在 ChatGPT 内部生成图像。”

此初始版本仅专注于图像创建,并将在 ChatGPT Plus、Pro、Team 和 Free 订阅层中提供。

值得注意的是,GPT-4o 图像生成标记器词汇量(实际上是用于表示文本的唯一整数的数量)已从 GPT-4 和 GPT-3.5 的约 10 万个增加到约 20 万个。古吉拉特语输入使用的标记减少了 4.4 倍,日语减少了 1.4 倍,西班牙语减少了 1.1 倍。以前,除英语以外的其他语言在提示中可以容纳多少文本方面会付出实质性的代价。

同样值得注意的是价格。OpenAI 声称与 GPT-4 Turbo 相比,价格降低了 50%。更直观的对比是, GPT-4o 成本恰好是 10 倍  GPT-3.5;4o 是 5 美元 / 百万输入 token 和 15 美元 / 百万输出 token。3.5 是 0.50 美元 / 百万输入 token 和 1.50 美元 / 百万输出 token。

价格下降尤其引人注目,因为 OpenAI 承诺也将向免费 ChatGPT 用户提供该模型——这是他们第一次直接向非付费客户提供“最佳”模型。

OpenAI 研究负责人 Gabriel Goh 在接受媒体采访时表示:“该模型比以前的模型有了很大的改进”,并补充说,团队使用了 GPT-4o“全模态”——一种可以生成任何类型数据(如文本、图像、音频和视频)的模型——作为该功能的基础。

OpenAI 在公告中表示,GPT-4o 图像生成功能具有以下特点:

  • 精准渲染图像内文字,能够制作 logo、菜单、邀请函和信息图等;

  • 精确执行复杂指令,甚至在细节丰富的构图中也能做到;

  • 基于先前的图像和文本进行扩展,确保多个交互之间的视觉一致性;

  • 支持各种艺术风格,从写实照片到插图等。

先来感受下生成图片的效果怎么样。

OpenAI 在官方示例展示时放出了一张女士背对着镜头在白板上写字的图片。

图片看起来就是很日常的生活照片,但实际上,它是由 GPT-4o 生成的 AI 图片,OpenAI 给出的提示词如下 :

“在俯瞰海湾大桥的房间中,使用手机拍摄玻璃质地白板获得的宽幅图像。画面中一位女性正在写字,身着带有显眼 OpenAI 标志的 T 恤。笔迹自然且略带凌乱,白板上投射出摄影师的身影。”

接下来第二张图片转了人物朝向,以摄影师的自拍角度,画面中的女性转向与他击掌,生成的图像还是完全看不出出自 AI。

还能生成四格连环画,边框与画面边缘间注意留白。提示词如下:

“一只小蜗牛身在华丽的汽车展厅柜台上,推销员俯下身来才能看到他。特定镜头中,蜗牛表情严肃,说‘我想要你们最快的跑车……还得在车门、引擎盖和车顶位置画上大写的「S」。’

销售员挠挠头,‘呃……当然没问题。不过为什么是「S」?’

画面切换到时一辆红色汽车在高速公路上呼啸而过,车身上写满巨大的「S」。路旁的人们指指点点,笑着说,‘WOW! LOOK AT THAT S‑CAR GO!’”

生成一张详细解释牛顿棱镜实验的信息图。

然后,现在生成一个人在华盛顿广场公园的一张图形咖啡桌旁,用笔记本绘制这张图的第一人称画面。

然后,现在在同一场景下,显示难掩兴奋的年轻牛顿坐在桌旁,手持棱镜演示实验结果,注意画面中不要出现笔记本。

多项功能迭代,
生成图像效果更佳

据 OpenAI 官方说明,GPT-4o 在多个方面相较于过去的模型进行了改进:

  • 更好的文本集成:与过去那些难以生成清晰、恰当位置文字的 AI 模型不同,GPT-4o 现在可以准确地将文字嵌入图像中;

  • 增强的上下文理解:GPT-4o 通过利用聊天历史,允许用户在互动中不断细化图像,并保持

  • 改进的多对象绑定:过去的模型在正确定位场景中的多个不同物体时存在困难,而 GPT-4o 现在可以一次处理多达 10 至 20 个物体;

  • 多样化风格适应:该模型可以生成或将图像转化为多种风格,支持从手绘草图到高清写实风格的转换。

OpenAI 表示,从第一幅洞穴壁画到现代信息图,人类一直在使用视觉图像进行交流、传达与分析。如今的生成模型可以呈现出超现实、令人惊叹的场景,但却难以处理人们用于分享和创建信息的实用性图像。事实上从徽标到图表,基于共同语言和经验相关符号的图像往往可以传达精确的表达含义。

GPT-4o 图像生成善于准确地呈现文本、精确遵循提示词,并运用 4o 固有的知识库与聊天上下文——包括直接转换上传的图像,或将其作为视觉创作灵感。这些功能可轻松创建大家设想的图像,帮助用户通过视觉效果实现顺畅交流,并将图像生成真正转化为具备精确性与强大现实意义的实用性工具。

利用在线图像与文本内容共同训练模型,GPT-4o 图像生成不仅学习到图像与语言的内部关联,还掌握了二者之间的对应关系。结合积极的后训练设计,生成模型获得了令人惊喜的视觉流畅性,能够生成高度实用、一致且具备上下文感知特征的图像。

正所谓一图胜千言,但有时在正确位置添加寥寥数语即可显著提升图像的表达效果。4o 将精确符号与图像融合起来,使得图像生成真正具备了视觉交流属性。

OpenAI 放出了一些官方示例。

创建一张逼真的图像,画面中两名 20 多岁的女巫(一名有着灰色挑染头发,另一名有着赤褐色波浪长发)正在阅读路牌。

提示词:

纽约威廉斯堡一条街道上,路牌中展示大量详尽的街道标志(例如街道清扫时间、停车许可要求、车辆分类、拖车规则),其间还有一些架空信息(以合法的街道标记形式呈现),如“C 区禁止停泊女巫扫帚”、“仅允许魔毯卸货(不超过 15 分钟)”以及“仅允许驯鹿凭许可临停(12 月 24 日至 25 日),违规者将被列入淘气名单。”路标位于街道右侧,内容不可重复,标志必须真实还原。

人物:一名女巫手持扫帚,另一名抱着卷起的魔毯。二人在前景中,背对画面,头部稍微倾斜并认真观看路牌。背景到前景的构图:街道 + 停放的车辆 + 建筑物——>路牌——>女巫。人物必须在距离镜头最近的位置。

多轮生成

如今图像生成已经成为 GPT-4o 中的原生功能,因此用户可以通过自然对话实现图像内容优化。GPT-4o 可以在聊天环境中基于图像和文本构建而成,确保内容始终保持一致。例如,如果用户正在设计一位电子游戏角色,那么在持续改进与试验过程中,该角色的外观将在多轮迭代中保持一致。

在电子游戏场景中,参考输入的小猫图像,为小猫添加一顶侦探帽和一副单片眼镜。

将画面转化为使用 4k 游戏引擎制作的 3A 电子游戏风格画面,并添加用户界面元素以呈现类似 RPG 游戏的叠加图层。顶部有生命栏和小地图,下方则是风格一致的咒语图标。

将画面更新为 16:9 横向图像,在 UI 中添加更多咒语元素,并缩小生成的小猫以通过第三人称视角观看其穿过蒸汽朋克风格的曼哈顿街头。注意使用 3A 游戏中常见的漂亮对比与光照效果,使用冷色调。

创建界面,当玩家打开菜单时显示小猫的角色资料和装备,另一页显示当前任务(任务内容应与图像中呈现的世界观保持关联)。

遵循指令

GPT-4o 的图像生成功能可遵循详尽提示词并始终关注细节。其他系统在处理包含 5 到 8 个对象的画面时往往表现不佳,而 GPT-4o 能够处理多达 10 到 20 个不同对象,同时更好地控制各对象、其特征及彼此关系之间的紧密绑定。

生成一幅正方形图像,包含一个 4 行、4 列的网格,共包含 16 个对象,背景为白色。从左至右、从上到下,各对象依次为:

  1. 一颗蓝色星星

  2. 红色三角形

  3. 绿色正方形

  4. 粉色圆形

  5. 橙色沙漏形

  6. 紫色无穷符号

  7. 黑白圆点领结

  8. 扎染纹理的“42”数字

  9. 一只戴着黑色棒球帽的橙色猫

  10. 一张带有宝箱的地图

  11. 一双大眼睛

  12. 竖起大拇指的表情符号

  13. 一把剪刀

  14. 一只蓝白相间的长颈鹿

  15. 用草体书写的“OpenAI”单词

  16. 一道彩虹色闪电

写实主义与图像风格

通过在训练中纳入反映多种图像风格的素材,4o 模型能够逼真地生成或转换图像。

一张狗仔队偷拍风格的照片,画面中卡尔·马克思匆匆走过美国购物中心的停车场,他回头一看,脸上带着惊恐的表情,不想被偷拍骚扰。他手里抓着几个装满奢侈品的闪亮购物袋。他的外套在风中飘扬,其中一个袋子在摆动,好像他正在大步走。模糊的背景,汽车和发光的购物中心入口,以强调运动。相机的闪光灯部分曝光过度,给人一种地下小报的感觉。

尽管生成的图片生动又逼真,但 OpenAI 也坦言,这些模型并不完美,目前也发现其存在的诸多局限性。OpenAI 将在先期发布之后,通过不断改进来解决这些问题。

在接受媒体采访时 Goh 也提到,“归根结底,没有一个系统是完美的,但我们正在不断改进我们的保障措施,我们认为这是一个起点。ChatGPT 生成的所有图像都有一个共同点,那就是用户拥有它们,并可以在我们的使用政策范围内随意使用它们。”

此外,OpenAI 支持生成公众人物形象和不符合历史但用户指定的图片。

此次更新,OpenAI 比以往更加关注安全性。

OpenAI 称,“根据模型规范,我们希望通过支持游戏开发、历史探索和教育等具有现实价值的用例以最大限度提升创作自由,同时保持严格的安全标准。换言之,阻止违规请求是保障制度落实的必要前提。我们正努力通过以下手段保障安全且高度实用的内容,同时支持用户借助创意广泛表达自己的灵感与思路。”

首先,通过 C2PA 与内部可逆搜索进行溯源。目前,生成的所有图像均带有 C2PA 元数据,用于注明图像来自 GPT-4o 以保证公开透明。此外,OpenAI 还构建了一款内部搜索工具,其使用生成技术属性以帮助验证内容是否来自我们的模型。

其次,OpenAI 称会坚决屏蔽不良内容。将继续阻止可能违反内容政策的生成图像请求,例如儿童性虐待素材与深度伪造色情图像。对于上下文内的真人图像,OpenAI 会加强对于所能创建图像的限制,并对裸露及暴力画面采取极其严格的处理措施。当然,安全升级永远不会结束,也将成为持续投资的重要领域。

第三,使用推理增强安全性。OpenAI 已经训练了一套推理大模型,负责根据人类编写的可解释安全规范识别并解决政策中的歧义。结合 ChatGPT 与 Sora 所使用的多模态安全技术,得以根据现有政策灵活调整输入文本与输出图像。

但目前尽管 4o 图像生成技术在性别表现的多样性上超过了 DALL·E 3,但输出结果仍然主要偏向男性主体。因此,OpenAI 表示其未来的工作将着重于提高数据均衡性,让模型更加公平。

访问方式与上线时间

作为 ChatGPT 中的默认图像生成工具,4o 图像生成功能从即日起开始向 Plus、Pro、Team 及 Free 用户全面开放。Enterprise 及 Edu 访问权限将后续开放。Sora 也可享受到此次功能升级。对于希望继续使用 DALL-E 的用户来说,则可通过专门的 DALL-E GPT 访问这项新功能。

开发人员很快就能通过 API 使用 GPT-4o 生成图像功能,访问权限将在未来几周内开放。

OpenAI 表示,整个图像创建与自定义过程,就像与 GPT-4o 聊天一样简单——只需描述你的需求,包含画面比例、使用十六进制代码的精确色彩或透明背景等细节即可。由于此模型能够生成涉及更多细节的图像,因此渲染时间可能更长,最多可能达到 1 分钟。

参考链接:

https://openai.com/index/introducing-4o-image-generation/

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

 会议推荐

AICon 2025 强势来袭,5 月上海站、6 月北京站,双城联动,全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票,一同探索 AI 应用边界!


今日荐文




图片
你也「在看」吗?👇

安全这玩意儿,就是猫鼠游戏。OpenAI 搞安全升级,搞不好哪天就被黑客大佬给破解了。想想之前的各种漏洞,防不胜防啊!所以啊,吃瓜群众看看就好,别太当真。真要用 GPT-4o 生成啥玩意,还是得自己多留个心眼。

OpenAI 强调的安全性措施,例如 C2PA 溯源和屏蔽不良内容,在一定程度上可以减少滥用风险。C2PA 能让大家知道图片是 AI 生成的,避免被误用。屏蔽不良内容则可以防止生成儿童不宜或涉及暴力的图片。但是,道高一尺魔高一丈,总有人会想办法绕过这些限制。比如,可以通过修改提示词来生成擦边球内容,或者利用 AI 进行更高级的 deepfake 攻击。所以,安全问题永远是动态的,需要不断升级和完善。

设计师慌不慌我不知道,反正我已经开始学提示词工程了!以后不会画图没关系,会写提示词就行了!说不定过几年,设计师都得改名叫“提示词工程师”了,哈哈!

对于设计师和创意工作者来说,GPT-4o 既是机遇也是挑战。一方面,它可以作为强大的辅助工具,帮助设计师快速生成灵感、节省时间。另一方面,它也可能会取代一些简单的设计工作,对设计师的技能提出更高的要求。应对之道在于学习和适应。设计师应该积极拥抱 AI 技术,将其融入自己的工作流程,同时提升自己的创意能力和审美水平,才能在未来的竞争中立于不败之地。

谢邀,人在工地,刚下穿山甲。我觉得 GPT-4o 最厉害的地方在于它能生成文字清晰的图片!以前的 AI 画图,文字简直就是鬼画符,根本没法用。现在好了,做个海报、logo 啥的,直接让 AI 出图,省时省力,老板再也不用担心我加班了!

从伦理角度来看,即使 OpenAI 采取了诸多安全措施,仍然存在一些潜在风险。例如,AI 生成的图像可能会加剧社会偏见,因为训练数据本身可能存在偏差。此外,AI 生成图像在政治宣传和虚假信息传播方面的应用也值得警惕。我们需要建立更完善的监管机制,确保 AI 技术能够用于正当用途。

这个问题问得好!我觉得 GPT-4o 除了文章里说的那些,最大的优势在于它把图像生成变成了 ChatGPT 的原生功能,这意味着我们可以像聊天一样对图像进行各种修改和调整,非常方便。想象一下,你设计一个游戏角色,可以随时跟 AI 沟通,不断迭代,这种体验太棒了!而且,随着未来 API 的开放,开发者肯定能创造出更多有趣的玩法。

从技术角度分析,GPT-4o 的多模态特性是其显著优势。它不仅仅是生成图像,而是能够理解图像与文本之间的关联,甚至可以跨模态进行推理。这意味着它可以更好地理解用户的意图,生成更符合用户需求的图像。此外,GPT-4o 在训练数据上的优化,例如增加对不同图像风格的学习,也使其在生成图像的多样性上更具优势。

从经济学角度分析,GPT-4o 可能会导致设计行业的结构性变革。一些重复性的、低附加值的工作可能会被 AI 取代,而需要更高创意和专业技能的工作则会更加受到重视。设计师需要不断提升自己的技能,拓展自己的知识面,才能适应这种变化。此外,设计师还可以尝试与 AI 合作,共同创造出更优秀的作品。