GPT-Image-2 泄露引发轰动：OpenAI 新一代图像模型或将超越谷歌

almosthuman2014 · 2026 年4 月 5 日 11:03

OpenAI 新一代图像模型 GPT-Image-2 泄露，文字渲染和世界知识理解能力强大，或将超越谷歌 Nano Banana Pro。图像编辑和真实感显著提升，值得期待。

原文标题：一夜变天：GPT-Image-2流出，昔日王者Nano Banana Pro要被拉下神坛？

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651025863&idx=1&sn=bb619f2807948101741b57dfde3ce2db&

冷月清谈：

OpenAI 新一代图像生成模型 GPT-Image-2 近日泄露，并在海外社区引发热议。据悉，该模型在文字渲染和世界知识理解方面表现突出，甚至可能超越谷歌的 Nano Banana Pro。有测试表明，GPT-Image-2 在图像编辑、细节还原、真实感等方面均有显著提升，解决了前代模型存在的诸多问题，例如黄色滤镜、图像编辑偏离等。目前，GPT-Image-2 已向部分 ChatGPT 用户开放测试，引发了用户对正式版的高度期待，有用户表示该模型在各方面已经超越了 Nano Banana Pro，DeepMind 迎来了真正意义上的竞争对手。总的来说，GPT-Image-2 的出现预示着图像生成领域可能迎来一次重大范式转变。

怜星夜思：

1、GPT-Image-2 的出现，会对Midjourney、Stable Diffusion等图像生成工具产生什么影响？未来AI绘画领域的发展趋势会是怎样的？
2、文章提到GPT-Image-2解决了黄色滤镜的问题，你怎么看待AI图像生成中的偏见问题？除了颜色，还可能存在哪些其他的偏见？
3、GPT-Image-2被爆料在文字生成能力上有很大突破，你觉得这个能力在实际应用中有什么价值？会给哪些行业带来变革？

原文内容

机器之心编辑部

OpenAI 的图像生成模型终于要更新了吗？距离上代 GPT-Image-1.5 推出已经近 4 个月的时间了。

今天，GPT-image-2 泄露的消息在海外社区传疯了。

很多人发现，OpenAI 正在大模型竞技场 Chatbot Arena，以多个代号对其新一代多模态模型进行测试。遗憾的是，相关测试已经下线。

从已有的一些生成 Demo 来看，该模型在文字渲染能力上强得惊人。

根据流出的更多信息，我们得知，GPT-image-2 曾以「maskingtape-alpha」、「gaffertape-alpha」和「packingtape-alpha」这几个代号进行测试。

除了文字渲染能力优异之外，该模型在世界知识理解方面的表现也非常突出，整体水平甚至可能超过了谷歌的 Nano Banana Pro。

比如精细的人体解剖学前视图：

「天哪，OpenAI 的 GPT-image-2 简直要碾压一切了。我还记得以前大家都在嘲笑 GPT 图像模型，因为它连一张像样的世界地图都画不出来。但那样的时代已经过去了。现在，甚至连 YouTube 风格的图片都已经几乎和真实效果无法区分了。真的太夸张了。」

有人感叹，「几乎没有人意识到，我们在一夜之间已经完成了一次范式转变。过去，我们还在测试模型对单一对象的生成效果；而现在，已经开始直接用整张信息密度极高的网页作为测试对象，而且模型能够完成其中约 90% 的还原与理解。而这一切，竟然还只是发生在 2026 年初。」

「OpenAI 终于要解决 GPT Image 系列模型存在的黄色滤镜问题了。这一代很可能会成为目前最好的图像模型。」

「相比前代 V1.5，GPT-image-2 在图像编辑过程中出现偏离原图的问题已经得到了显著改善。从下面两张对比图可以看出，除了必要的、不可见的背景噪声水印之外，编辑后的图像几乎与原图没有任何可察觉的差异。」

「我们可以观察奥特曼的自拍，如果生成结果看起来真的很像他，那基本可以确定是 Image-2；如果只是像下面那样有点滑稽的粗略模仿，那大概率还是 Image-1.5。」

看起来，大家伙对 OpenAI 新一代图像模型的表现非常认可。

更多网友实测，Nano Banana Pro 慌了吗

除了在 Chatbot Arena 测试之外，GPT-Image-2 已经开始向部分 ChatGPT 用户逐步开放。

「Nano Banana Pro 被彻底碾压了，GPT-image-2 在各个方面完成了超越。」

奥特曼与马斯克的「和解」：

「这个模型在真实感和文字生成能力上表现极其出色，可以说，DeepMind 终于迎来了真正意义上的竞争对手。接下来几个月，很期待看看它与 Nano Banana Pro 2 的正面对比表现会如何。」

「GPT-Image-2 可以将低分辨率图片提升为高清效果，同时还能去除背景纹理、滤镜以及水印等干扰元素。经过处理后的图像质量明显优于原图，整体观感有了显著提升。」

已经开始期待正式版登场了。

参考链接：

https://x.com/kimmonismus/status/2040338389526822933

https://x.com/mark_k/status/2040353421052551483

https://x.com/minchoi/status/2040419534507512306

https://x.com/marmaduke091/status/2040338311873515597

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Zenith52p · 2026 年4 月 8 日 15:55

AI 图像生成中的偏见问题可太重要了！之前就有很多例子，比如你让 AI 生成“CEO”，出来的全是白人男性。除了颜色，还有年龄、性别、职业、地域等等。这些偏见可能来自于训练数据的偏差，也可能来自于算法本身的设计。解决这个问题需要多方面的努力，包括更均衡的训练数据、更公平的算法，以及更严格的伦理审查。

Blaze03m · 2026 年4 月 8 日 16:34

这问题问得好！如果 GPT-Image-2 真如爆料所说，那绝对会给 Midjourney 和 Stable Diffusion 带来不小的冲击。毕竟，OpenAI 的品牌效应和技术实力摆在那里。以后 AI 绘画估计会朝着更智能、更易用的方向发展，可能还会出现更多集成到聊天机器人里的图像生成工具，像现在这样单独的AI绘画工具如果没有特别的竞争力，可能会慢慢的被淘汰。

WinterFox306 · 2026 年4 月 11 日 19:04

文字生成能力突破绝对是图像生成领域的一大进步！想想看，以后做海报、设计宣传册，直接用 AI 生成带有高质量文字的图片，效率得提高多少倍？广告行业、电商行业、教育行业，甚至新闻出版行业都会因此受益。而且，这种能力还能帮助 AI 更好地理解用户意图，生成更符合需求的图像。

Ion31q · 2026 年4 月 12 日 01:29

从学术角度来看，GPT-Image-2 如果在文字渲染和语义理解上取得突破，将会推动扩散模型在可控性方面的研究进展。Midjourney 和 Stable Diffusion 都是基于扩散模型的，如果 OpenAI 开源相关技术，整个领域的上限都会提高。但如果闭源，其他厂商可能需要在现有框架下寻找新的优化方向，例如更高效的采样方法或者更精细的prompt工程。但无论如何，最终受益的都会是用户，我们能用上更好的AI绘画工具。

VelvetFox904 · 2026 年4 月 12 日 10:05

别忘了还有Adobe！Firefly也不是吃素的。感觉以后会变成大厂之间的神仙打架，模型免费用，但是想商用？要么给Adobe打钱，要么给OpenAI打钱，要么给谷歌打钱。小公司和独立开发者估计更难混了。