GPT-4o原生图像生成上线:免费用户也能轻松P图、生图

OpenAI推出GPT-4o原生图像生成,免费用户也能用!精准呈现文字,遵循指令,还能持续优化,图像生成就像聊天一样简单!

原文标题:刚刚,GPT-4o原生图像生成上线,P图、生图也就一嘴的事

原文作者:机器之心

冷月清谈:

OpenAI 悄然发布了 GPT-4o 原生图像生成功能,即使是免费用户也能使用。GPT-4o 将图像生成器集成到多模态模型中,统一训练使其能够同时理解文本、代码和图像。其优势在于能够精准呈现文字内容,严格遵循指令要求,并充分调用内置知识库和对话上下文。GPT-4o 通过在线图像和文本进行训练,学习了图像与语言以及图像之间的关系,从而具有惊人的视觉流畅性,能够生成有用、一致且具有上下文感知能力的图像。GPT-4o 的图像生成不仅能做到文本渲染,还能持续生成并优化图像,细致入微地遵循详细的提示,甚至能将上传的图像细节无缝整合到上下文中以指导图像生成。此外,它还能将文本和图像知识联系起来,从而形成更智能的模型。OpenAI 也坦承了该模型的局限性,并表示将不断改进。目前,GPT-4o 图像生成能力已向 Plus、Pro、Team 和免费用户推出,企业版和教育版用户还需等待一段时间。

怜星夜思:

1、GPT-4o 的图像生成能力集成到多模态模型中,这会对未来的AI发展方向产生什么影响?它会加速AI在哪些领域的应用?
2、文章中提到了GPT-4o 图像生成的一些局限性,例如在处理多对象、精确绘图等方面还存在不足。那么,你觉得这些局限性在短期内能够被解决吗?会通过什么技术手段来解决?
3、OpenAI 在模型安全方面采取了很多措施,例如通过 C2PA 标记图像来源,阻止不良内容生成等。你认为这些措施能够有效地防止 GPT-4o 被滥用吗?还有哪些潜在的风险需要关注?

原文内容

机器之心报道
机器之心编辑部

就在 DeepSeek V3「小版本更新」,阿里通义千问团队开源了新模型后,OpenAI 深夜也悄悄搞事情。

毫无预告地,OpenAI 推出 GPT-4o 原生图像生成。效果让人惊叹不已。更妙的是,即使免费用户也可使用。


先来体验一下:


在生成结果中可以看到,GPT-4o 在执行任务时首先会对我们的原始提示词进行优化,编写一个更加详细的英文版提示词:


在 OpenAI 看来,图像生成应该是语言模型的核心能力之一。因此他们将最先进的图像生成器 4o 集成到了 GPT-4o 中。

2024 年 5 月,OpenAI 发布其首个全能多模态模型 GPT-4o,与 ChatGPT 之前采用的生成式 AI 图像模型(OpenAI 的 DALL-E 3)不同 —— 这个经典的 diffusion transformer 通过去除像素噪声来根据文本提示重建图像 —— 新的图像生成器被整合到了同一个多模态模型中。OpenAI 对整个模型进行了统一训练,使其能够同时理解文本、代码和图像等多种形式。

GPT-4o 的图像生成能力具有以下突出优势:它能精准呈现文字内容,严格遵循指令要求,并充分调用 4o 内置知识库和对话上下文 —— 包括对上传图像进行转化处理或将其作为视觉灵感来源。这些特性让用户能更轻松地创造出与构想完全一致的图像,通过视觉表达实现更高效的沟通,从而将图像生成技术升级为兼具精确性与实用性的强大工具。

效果如何,我们接着往下看。

有用且美丽的图像生成

OpenAI 基于在线图像和文本对模型进行了训练,这不仅让模型学习了图像与语言之间的关系,还学习了图像之间的相互关系。结合后训练,最终的模型具有令人惊讶的视觉流畅性,能够生成有用、一致且具有上下文感知能力的图像。

文本渲染

一图胜千言,但有时在恰当位置生成几个字就能升华图像意境。4o 将精准符号与视觉元素完美融合的能力,使图像生成进阶为真正的视觉传达工具。

提示:「创建一张逼真的照片,内容是两名 20 多岁的女巫(一名是灰白色挑染发型,另一名是长卷的红褐色头发)正在阅读一个街标。

背景:纽约威廉斯堡一条普通的城市街道,一根电线杆上完全被许多详细的街标覆盖(例如,街道清扫时间、需要停车许可证、车辆分类、拖车规则),包括中间的几个荒谬的标志:Broom Parking for Witches Not Permitted in Zone C,Magic Carpet Loading and Unloading Only (15-Minute Limit) 等等。

人物:一名女巫拿着一把扫帚,另一名女巫拿着一个卷起的魔法地毯。她们在前景中,身体微微背向相机,头部微微倾斜,仔细查看标志。

从背景到前景的构图:街道 + 停放的汽车 + 建筑物 → 街标 → 女巫。人物必须是离拍摄相机最近的。

这就是生成一张图片的部分提示词,提示词描述的可谓非常详细。GPT-4o 不但严格遵循指令,还将提示语中的文本字符也准确的表达出来了。


GPT-4o 生成的菜单,不知道的还以为这是一张真实菜单。

提示:「我在 Marin 开设了一家名为 Haein 的传统概念餐厅,主打采用有机农场新鲜食材烹制的韩式料理,并根据时令供应轮换菜单。请您设计一份菜单图片,需包含以下菜品 —— 整体风格要兼顾传统 / 乡村韵味与高端精致感。请为每道菜品配上优雅的彼得兔风格的插画,确保所有文字正确呈现,并使用白色背景。

顶部:大酱汤(发酵大豆炖菜) - 18 美元
大酱汤是用当地的蘑菇、豆腐和时令蔬菜做成的,配上米饭……

底部:时令米酒 —— 每杯 12 美元」


持续生成

由于图像生成功能现已深度集成于 GPT-4o 系统,用户可通过自然对话实现图像优化。GPT-4o 能基于聊天上下文中的图文内容持续创作,确保输出结果的一致性。例如在设计游戏角色时,当你反复调整和测试方案,该角色的外观特征将在多次迭代中保持高度协调。

举例来说,当你输入一张猫咪的图片,然后给出提示「给这只猫一顶侦探帽和一副单片眼镜」,GPT-4o 就能在保持原始图片的情况下,遵循指令重新生成一张。

你还可以继续修改图片,只要给点提示就可以了,例如给定提示「将这个场景制作成一款 AAA 级的 4K 游戏引擎打造的视频游戏,并添加一个神秘角色扮演游戏的用户界面作为覆盖层。在游戏中,我们可以在顶部看到生命值条和小地图,底部则显示法术图标,整体界面风格保持一致且具有标志性。」对话过程一张精美的图片就生成了。


除了图像作为输入,你也可以从提示入手,例如要求 GPT-4o 生成一张「奢华蛋壳纹理卡片上的诗歌」,然后把诗歌内容也附加上,就能出现如下的效果图,你也可以进一步修改,输入提示就可以了。


指令遵循

GPT-4o 的图像生成能够细致入微地遵循详细的提示,注重细节。其他系统在处理大约 5 到 8 个对象时可能会遇到困难,而 GPT-4o 能够处理多达 10 到 20 个不同的对象。对象与其特征和关系的更紧密绑定,使得控制更加精准。

提示:「一张正方形图片,包含一个 4 行 4 列的网格,共有 16 个物体,背景为白色。从左到右、从上到下依次排列如下:

一颗蓝色的星星
一个红色的三角形
一个绿色的正方形
一个粉色的圆形
一个橙色的沙漏
一个紫色的无穷大符号
一个黑白波点图案的领结
一个扎染风格的 42 字样
……
用草书写成的 OpenAI 字样
一道彩虹色的闪电」


空旷的城市,提示:下午的纽约时代广场,没有人,没有车辆,也没有发光的广告牌。


转化数学公式:


上下文学习

GPT-4o 能够分析并学习用户上传的图像,将图像的细节无缝整合到上下文中,以指导图像生成。

当你输入几张图像,然后给出提示:用这些图像作为参考,画一个三角形车轮的车辆设计。

标出前轮,后轮,并在图的下方给出文字(用小大写)

「TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI」


提示:蓝色电锯逼真图像。

然后再给出提示:为这个电锯做个广告,一个奶奶在感恩节餐桌上切火鸡。并添加标签行。


世界知识

原生图像生成使 4o 能够将文本和图像之间的知识联系起来,从而形成一个感觉更智能、更高效的模型。


提示:制作一个视觉信息图表,描述为什么旧金山如此多雾。

简单的一句提示,4o 就把影响环境质量的原因用图片的形式描述出来了。看来,4o 掌握的知识还是很丰富的。


要求 4o 制作一幅关于如何制作抹茶的彩色图解,也没有问题。


风格

在反映丰富多样图像风格的图像上进行训练,使模型能够令人信服地创建或转换图像。

提示:一只猫望着街上的水坑,但它的倒影是一只老虎,而且两种倒影都被水中的涟漪真实地扭曲了。


提示:创建一张超逼真的照片,内容是这四只动物在公园的野餐毯上玩扑克,画面拉远,呈现全景,照片风格逼真。一只长毛虎斑猫正拿着一手牌……


局限性

OpenAI 没有避讳自身模型的局限性。他们指出:「我们的模型并不完美。我们目前已经看到了其存在多种限制,我们将在首次发布后通过模型改进来解决这些限制。」具体来说,OpenAI 罗列出的限制包括:

  • 裁剪:GPT-4o 有时会错误地裁剪较长的图像(如海报),尤其是靠近底部的部分。

  • 幻觉:与其他文本模型一样,图像生成模型也可以编造信息,尤其是在上下文提示较少时。

  • 高结合问题:当生成图像需要依赖于其知识库时,它可能难以同时准确地呈现 10-20 多个不同的概念,例如完整的元素周期表。

  • 精确绘图:模型可能在绘制涉及数据的图表时不准确。

  • 多语言文本渲染:模型有时难以渲染非拉丁语言,并且字符可能不准确或产生幻觉,尤其是在更复杂的情况下。

  • 编辑精度:当要求编辑图像生成的特定部分(例如拼写错误)时,结果并不总是有效,还可能出现在没有请求的情况下更改图像的其他部分或引入更多错误的情况。另一个错误是模型难以保持用户上传的人脸在编辑中的一致性,但 OpenAI 预计将在一周内修复该错误。

  • 小文本信息密集:众所周知,当被要求以非常小的尺寸呈现详细信息时,模型会遇到困难。


模型难以呈现完整的元素周期表

安全性

OpenAI 也强调了自己在模型安全方面所做的工作。

按照 OpenAI 之前发布的 Model Spec(模型规范),他们的目标是「通过支持游戏开发、历史探索和教育等有价值的用例来最大限度地提高创作自由 —— 同时保持严格的安全标准。与此同时,阻止违反这些标准的请求仍然和以往一样重要。」以下是对其它风险领域的评估:

通过 C2PA 和内部可逆搜索给出出处

所有生成的图像都将自带 C2PA 元数据,即会被标记成来自 GPT‑4o 的图像。OpenAI 表示,这样做是为了提供透明性。并且他们宣布已经构建了一个内部搜索工具,可利用生成结果的技术属性来帮助验证某个内容是否出自他们的模型。

阻止不良内容

OpenAI 表示将继续阻止可能违反其内容政策的生成图像请求。他们表示,当真人图像处于上下文中时,会加强对可以创建的图像类型的限制。

「与任何发布一样,安全性永不止步,而是一个持续的投资领域。随着我们更多地了解该模型在现实世界中的使用情况,我们将相应地调整我们的政策。」

使用推理来增强安全性

与审议性对齐(deliberative alignment⁠)类似,OpenAI 表示已经训练了一个可以直接根据人工编写的可解释安全规范工作的推理 LLM。

「我们在开发过程中使用了这个推理 LLM 来帮助我们识别和解决我们政策中的歧义。结合我们为 ChatGPT 和 Sora 开发的多模态技术进步和现有的安全技术,这能让我们根据我们的政策来调节输入文本和输出图像。」

有关安全性的更多论述和研究结果请访问 OpenAI 同步发布的 GPT-4o 系统卡附录。


附录地址:https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

哪些用户可以使用?

OpenAI 表示,从今天开始,4o 图像生成能力将向 Plus、Pro、Team 和免费用户推出,作为 ChatGPT 中的默认图像生成器,企业版和教育版用户还需等待一段时间。它也可以在 Sora 中使用。对于那些 DALL・E 在其心中占有特殊地位的人来说,仍然可以通过一个专门的 DALL・E GPT 访问它。

API 用户呢?OpenAI 表示也快了:访问权限将在未来几周内推出。

最后,OpenAI 表示:「使用 GPT-4o,创建和定制图像就像天一样简单 —— 只需描述你需要什么,包括任何细节,如宽高比、使用十六进制代码的精确颜色或透明背景。」不过,OpenAI 也指出,由于此模型能生成更详细的图像,因此图像渲染时间更长,通常长达一分钟。

参考链接:https://openai.com/index/introducing-4o-image-generation/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


这些措施肯定是有作用的,至少能起到一定的震慑作用。但是,技术永远是双刃剑,道高一尺魔高一丈。我觉得潜在的风险在于,可能会被用于制造虚假信息,进行恶意攻击。比如说,生成一些虚假的社会事件图片,煽动民众情绪;或者生成一些针对特定人物的诽谤信息,进行人身攻击。所以,除了技术手段,还需要加强监管和用户教育,提高大家识别虚假信息的能力。

人在工位,已经开始卷了。简单说两句:
个人认为这些问题本质上是AI对世界的理解还不够深入,需要让AI理解的知识更多,想象力更丰富,我觉得光靠现在transformer的结构是不够的,需要引入新的attention机制,或者新的架构,另外一个方面,可以考虑用上现在很火的“世界模型”的概念,让AI自己构建一个虚拟世界,然后在虚拟世界中进行训练,或许能有奇效。

谢邀,人在实验室,刚摸完鱼。
多模态是好文明!解放生产力!让AI更像人!图像生成只是其中一个很小的应用。大胆预测一波,以后的趋势是,各种传感器数据都可以往里扔,AI直接给你生成一套可执行的方案。比方说,自动驾驶,结合摄像头、雷达、GPS等等,然后AI直接根据实时路况生成驾驶策略,想想就刺激!

个人认为短期内完全解决比较困难,这涉及到模型理解和生成机制的深层问题。一种可能的解决路径是通过结合专家系统,针对特定任务进行优化。例如,对于精确绘图问题,可以引入专业的绘图引擎作为辅助,AI 负责生成整体框架,绘图引擎负责细节绘制。当然,这也需要AI能够更好地理解和调用这些外部工具。

泻药,人在家中,刚下飞机。
风控这东西,永远是猫鼠游戏。现在能想到的,以后肯定有更骚的操作。我觉得最关键的还是,让AI自己具备伦理判断能力,知道什么是该做的,什么是不该做的。这才是从根本上解决问题的办法。当然,这个难度系数有点高,需要全人类共同努力。

多模态融合是人工智能发展的重要方向,GPT-4o的意义在于提供了一个优秀案例。未来AI应用不仅仅局限于单一任务处理,而是在复杂的现实场景中,可以结合文本、图像、音频等多重信息进行综合分析和决策。这将加速AI在智能助手、内容创作、科研等领域的应用,例如辅助医生进行医学影像诊断,或者帮助科学家分析复杂的实验数据等。

OpenAI 的努力值得肯定,但要完全防止滥用几乎是不可能的。C2PA 标记可以在一定程度上追溯图像来源,但无法阻止恶意用户使用其他手段篡改或伪造信息。更值得关注的是深度伪造技术与 GPT-4o 结合可能产生的社会影响,例如制造虚假的政治新闻、商业诈骗等。除了技术手段外,还需要法律法规的完善和社会伦理的约束。

这个问题很有意思!我觉得这种多模态集成是必然趋势,AI 以后肯定要像人一样,能听会说,能看会画。GPT-4o 算是迈出了重要一步,想象一下,以后设计个海报、写个文案,直接用 AI 一句话搞定,那效率得提升多少倍啊!可能是设计、营销、教育这些领域会首当其冲吧。

局限性肯定能解决,只是时间问题。我觉得短期内可以通过以下办法来缓解:1. 增加训练数据量,让模型见多识广;2. 优化模型结构,让模型更擅长处理复杂场景;3. 引入外部知识库,弥补模型自身知识的不足。不过,要彻底解决这些问题,可能还需要依赖一些新的技术突破。