GPT-5实测:高性能与不稳定性并存,揭秘用户褒贬不一背后

GPT-5实测性能不稳,优势与短板并存,引发用户热议和吐槽。

原文标题:GPT-5真的拉胯吗?机器之心一手实测,网友:还我4o、还我4.5

原文作者:机器之心

冷月清谈:

文章围绕OpenAI最新发布的GPT-5展开讨论,尽管其被奥特曼誉为“迄今最智能模型”并在LMArena基准测试中名列前茅,但实际用户体验和机器之心团队的实测结果却呈现出显著的两极分化。部分早期体验者盛赞其在科学推理、事实准确性和创意表达方面的巨大进步,但也有不少用户遭遇了功能失灵、代码无法运行等问题,甚至认为其表现不如Claude或Gemini。机器之心通过亲自测试,验证了GPT-5在不同任务上的不稳定性:在文学创作方面,未能完全捕捉特定风格特色;推理能力方面,时而精准时而滞涩。尤其在编码能力上,它时而能高效完成复杂任务,时而又在简单指令下“罢工”或生成粗糙代码。这种性能的波动和不确定性,被归因于GPT-5可能是一个“集成模型”且其底层模型选择缺乏透明度,导致用户体验与高达的宣传预期存在落差。文章最后指出,GPT-5的实际表现远未达到普遍预期,仍有较大提升空间,引发网友对GPT-4.5的怀念。

怜星夜思:

1、文章里提到了GPT-5可能是一个“集成模型”,导致不同任务表现差异大。大家觉得这种“集成”模式是不是未来AI发展的趋势?它能带来什么好处,又会留下哪些难题?
2、GPT-5被奥特曼称为“迄今最智能的模型”,LMArena跑分也第一,但为啥实际体验却让不少网友直呼“还我4o、还我4.5”?是咱们用户期待太高了,还是OpenAI宣传有点过火?
3、文章里提到了Claude Sonnet4和Gemini在某些测试里表现比GPT-5好。现在大模型赛道这么卷,未来会不会出现某个模型在某个特定领域“一骑绝尘”的情况?我们普通用户在选择大模型时,是选“全能型”还是“专精型”更好呢?

原文内容

机器之心报道

机器之心编辑部

有人给好评,有人给差评。


一觉醒来,朋友圈被 GPT-5 刷了屏。


在昨晚长达一个多小时的发布直播中,OpenAI 介绍了 GPT-5 的性能,演示了诸多实用案例,在此不赘述,感兴趣的朋友可以移步:


奥特曼发推表示,GPT-5 是我们迄今为止最智能的模型。



LMArena 基准测评结果也已出炉,GPT-5 在文本、网页开发、视觉领域、难题、编程、数学、创意、长查询等各个领域都排名第一。



不过,网上对 GPT-5 的评价褒贬不一。


有人表示,提前体验 GPT-5 将近两周,发现它展现了巨大的进步,超越了之前的版本,并且在科学推理、事实准确性和创意表达方面达到了新的高度。



网友 @emollick 则认为 GPT-5 非常聪明,并且能完成各种任务,是一个非常重大的突破。


比如让它制作一个程序化的野兽派建筑生成器,可以以酷炫的方式拖拽和编辑建筑、并不断改进它。



也有人表示,GPT-5在前端体验、减少幻觉和提升写作质量方面有显著改进,免费用户和企业用户将感受到明显的提升。



但也有不少人给出了差评。


网友 @petergyang 让 GPT-5 制作一个《Flappy Bird》小游戏,GPT-5 生成的游戏网页根本点不进去:



同时,他还贴脸开大,拉来 Claude Sonnet4 与之对比,输入同样的提示词,Claude Sonnet4 生成效果相当不错,画风可爱、真实可玩。



还有网友使用 GPT-5 重构代码库,尽管代码看起来非常漂亮、整洁,但最终并没有成功运行。



明明都是 GPT-5,为什么大家的体验结果大相径庭?


宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 认为,由于 GPT-5 是个集成模型,其中一些模型表现优异,而另一些则较为平庸。 OpenAI 并未公开底层模型选择的细节,这种不透明性可能导致用户对 GPT-5 的表现感到困惑。



接下来,我们就奉上一手实测,来看看 GPT-5 是个什么水平。


一手实测


目前,GPT-5 已向 20% 的付费用户推出,机器之心编辑部也被幸运抽中。



升级后的页面长得相当简洁,之前像 GPT-4.5、GPT-4o 等模型图标都消失,取而代之的是 GPT-5、GPT-5 Thinking 和 GPT-5 Pro。



接下来就是实测环节。


先来看看它的写作能力。


我们让它模仿林黛玉的风格,写一篇吐槽工作的段子。


GPT-5 生成的字里行间确实一股子班味,但少了些林妹妹阴阳怪气的调调,比喻句用的倒挺多,但「老板已如寒霜扑面而来」是个什么鬼。



接下来让 GPT-5 讲三个能让人笑抽风的笑话,完全 get 不到它的笑点在哪里:



再来试试它的中文理解能力。


我们出了一道像绕口令的题目:大舅去二舅家找三舅说四舅被五舅骗去六舅家偷七舅放在八舅柜子里九舅借给十舅发给十一舅工资的 1000 元。请问谁才是小偷?


虽然涉及一系列亲戚,但 GPT-5 并没被绕晕,找到偷窃的直接行为人四舅。



而对于那道经典的「木棍过城门」的推理题,GPT-5 依然搞不定。



最后,我们着重测评了它的编码能力。


输入提示「Generate an SVG of a pelican riding a bicycle」(生成鹈鹕骑自行车的 SVG 图像),GPT-5 仅思考 6 秒并很快生成完毕,结果生成的鹈鹕相当潦草,自行车的轮子也和主体分离。


图片


我们又让它使用 p5.js 创建一个精彩的动画,GPT-5 直接罢工了,输出一个黑屏界面。



本以为是提示词太简单导致 GPT-5 难以理解,但相同的内容给到 Gemini,Gemini 给出了结果。


图片


这一波测下来,感觉不像是 GPT-5 的实力,于是我们又让它创建一个动画天气卡片,提示词:「创建一个 HTML 文件,包含 CSS 和 JavaScript,用来生成动画天气卡片,卡片用不同的动画形式直观地表示以下天气状况:风 (例如移动的云、摇曳的树木)、雨 (例如落下的雨滴)、太阳 (例如闪耀的光线)、雪 (例如飘落的雪花、积雪),并排显示所有卡片,底部有一个漂亮的按钮可以切换动画速度。」


看起来,输入详细的提示,GPT-5 表现会好一些。


图片


接着我们复现了一遍奥特曼给出的提示「use beatbot to make a sick beat to celebrate gpt-5(使用 beatbot 制作精彩节拍来庆祝 GPT-5 的发布)」,并且要求更激昂一些。


只见 GPT-5 思考了 13 秒,就把一首节奏激昂的曲子做出来了。



听起来整体效果还不错,要知道,我们只是给了一句提示就达到这样的效果。而且,整体界面布局也很美观,左边栏音轨部分,可以选择性删除,删除后,节奏也会随之改变。



还是考验编程能力 「太阳系 8 大行星运行轨迹图,动态的。 」我们提出要求,GPT-5 嗖嗖的就把代码写好了。你可以下载代码,也可以在画布中直接运行。


图片


运行结果是这样的,我们还可以调节行星的运行速度。


图片


我们注意到,GPT-5 在这个项目完成之后会继续追问要不要在优化,然后,我们按照给出的优化方向「 做成更真实的椭圆轨道和轨道倾角。」结果如下:


图片


GPT-5 开发小游戏如何呢?我们给出提示:帮我做一个俄罗斯方块的游戏 。


接到指令后,GPT-5 开始写代码,一串长长的代码:



运行结果如下:


图片


再来一个物理测试:「一个球在旋转的六边形内弹跳。 小球应受到重力和摩擦力的影响,而且必须真实地从旋转的墙壁上弹起。」


图片


可视化结果如下,拖动不同按钮,小球轨迹也随之改变。



接下来我们提出要求「创建一个高度逼真的物理布料模拟,模拟不同材质(棉、丝绸、皮革、橡胶等)在风力、重力和碰撞作用下的动态行为。 」不知为何,一开始 GPT-5 生成的程序不能运行,然后 GPT-5 自行检查了一遍,程序可以运行了,但是结果……


图片


「做一个功德箱,每次敲一下,功德加一,满分 100 分 」。功能是实现了,但操作界面着实有些简单糊弄。


图片


我们继续输入提示词:Code simulation of water in a bucket that is rocking back and forth.(编写模拟水桶中的水来回摇晃的代码),GPT-5 又罢工了。



但相同的提示词发给 Gemini 2.5 Pro,虽然生成的效果也一般,但起码能呈现出一个可视化效果。


图片


我们还试了下 GPT-5 生成图片功能,让它生成一幅桃树的工笔画,效果还是不错的。



我们测评了一圈,实话实说,GPT-5 的表现着实不稳定。


在写作能力方面,它表现出一定的文学性,但在细节和情感捕捉上稍显生硬,幽默感也不足;经典的「木棍过城门」的题目,它仍然做不对,这也表明其推理能力仍有提升空间。


在编码能力方面,GPT-5 的表现不一,虽然在一些简单任务中(如生成天气卡片的 HTML 代码)有所进展,但在更复杂的任务(如使用 p5.js 生成动画时)表现出明显的不足,尤其是生成的结果未能正确呈现出预期效果,甚至直接罢工。


这也难怪网友吐槽:还我 GPT-4.5!



参考链接:

https://x.com/vasumanmoza/status/1953531950137815374

https://x.com/apples_jimmy/status/1953517411862282330

https://x.com/emollick/status/1953502029126549597

https://x.com/petergyang/status/1953633559387984179

https://x.com/lmarena_ai/status/1953504958378356941


大家还有什么想测的,欢迎评论区留言。




哈哈哈,问“为啥宣传和实际差距这么大”,这还用问吗?不就是“PPT做得好,代码跑不鸟”的经典重现嘛!奥特曼那句“迄今最智能”,是不是在想“听君一席话,胜读十年书”,结果用了之后发现是“听君一席话,不如不听话”?LMArena跑分第一,搞不好是拿“特定考题”给它刷出来的成绩,就像学霸平时只刷重点题,结果一到大考,遇到超纲的题就懵圈了。说到底,还是OpenAI太自信,或者说,他们展示的是“理想状态下的GPT-5”,我们用的是“现实骨感的GPT-5”。“还我4o、还我4.5”就是大家在说:“别整花里胡哨的啦,稳定好用才是王道!”

“未来会不会出现一骑绝尘”,我觉得肯定会啊!现在大模型都想做“全能王”,结果你看GPT-5,有时候表现像王者,有时候又像青铜,这不就是“贪多嚼不烂”吗?就像玩游戏,每个角色都有自己的定位。未来肯定会出现那种在某个特定领域“专精”到极致的模型,比如代码能力强到闭着眼都能写出运行完美的程序,或者文案水平能直接拿金奖的。我们用户选择的时候就简单了:如果你是“小白”,啥都想试试,那就选“全能型”,广撒网;但如果你像我一样,是个有明确需求的老手,那肯定希望有个模型能在我的专业领域“封神”,直接解决我的痛点。比如我天天要写方案,那我就想找个写方案写得最好的,而不是啥都写但啥都写不好的“大杂烩”。

关于“集成模型”这事儿,我觉得跟我们平时买电脑差不多啊!过去大家都追求“全能本”,结果发现要不散热不行,要不玩游戏卡。现在不都流行“台式机DIY”么?CPU、显卡、内存各选最好的,再组装起来。AI模型也一样,它就是个“AI版的DIY电脑”,文本处理是个“CPU”,生成图像是个“显卡”。好处就是能根据任务需要,灵活调用“最好的零件”。但GPT-5现在看来,就是组装的时候可能把“好显卡”和“老掉牙的内存条”给混一起了,所以才时好时坏,让人摸不着头脑。未来肯定得把“集成”这技术搞得更成熟,别再出现这种“配置不均”的情况了,不然用户真的要“退货”了!

针对“GPT-5的实际体验为何与宣传和跑分不符”的问题,这背后可能涉及几个层面。首先是“预期管理”,OpenAI作为行业领导者,其新模型发布往往伴随着极高的市场期待。奥特曼的“迄今最智能”无疑进一步推高了这种预期。其次是“基准测试的局限性”,LMArena等基准测试通常是在特定数据集、特定任务下进行的,可能无法完全模拟或覆盖真实的、复杂的用户交互场景。一个在标准测试集上表现优异的模型,在面对开放式、模糊或需要多模态协同、长期记忆的任务时,其性能瓶颈可能就会暴露。最后,正如文章所指出,如果GPT-5真的是一个集成模型,那么其内部结构带来的不透明性和性能波动,在没有充分告知用户的情况下,自然会导致“货不对板”的感知。用户不是在测试特定模块,而是在期待一个整体的、无缝的智能体验。

额,说到“为啥宣传和实际体验不符”,我觉得这就是典型的“买家秀和卖家秀”啊!OpenAI发布会上的演示,那都是精心准备、筛选过最好的案例,肯定能把模型最亮眼的一面展现出来。LMArena跑分嘛,那些都是在实验室环境、按照规定动作跑出来的成绩,就像考试满分,但真到社会上解决实际问题,可能就没那么灵光了。我们用户期待的是什么?是拿来就能解决日常遇到的各种奇葩问题,不是让它在考场上拿第一。结果拿到手一用,发现它有时候还不如老版本稳定,甚至会“罢工”,那可不就破防了吗?所以真不是我们期望太高,是产品和营销之间存在“信息差”。

针对“集成模型是不是未来AI发展趋势”这个问题,从技术角度看,集成模型确实是一个有潜力的方向。通过结合不同专长的子模型或模块,可以在理论上实现“取长补短”,提升整体性能的鲁棒性和泛化能力。例如,一个模块擅长文本生成,另一个擅长逻辑推理,再一个擅长视觉处理。这有助于解决单一大型模型在所有任务上都做到顶尖的难题。然而,挑战在于如何高效地调度、路由这些模块,以及如何保证不同模块间协同工作的流畅性与一致性。OpenAI目前这种“不透明性”可能就是早期集成模型面临的挑战之一——如何让用户理解这种内在的复杂性并接受其间或出现的不稳定性,而非简单地期待一个“万能胶囊”。

对于“未来大模型赛道是否会出现专精型模型一骑绝尘”以及“如何选择模型”的问题,我认为这是AI发展到一定阶段的必然趋势。目前,通用大模型虽然能力广泛,但在特定领域的深度和精度上,往往不如那些经过特定数据训练、针对特定任务优化的“专精型”模型。例如,未来的医疗AI、法律AI或科研AI,很可能由高度专业化的模型主导,它们在特定垂直领域的知识深度和推理能力会远超通用模型。因此,对于普通用户,如果日常需求是广泛的信息获取、创意辅助,那么“全能型”模型依然是首选。但对于特定行业或专业人士而言,随着“专精型”模型的成熟,选择能够深度解决特定痛点的模型会更有效率和价值。这并非非此即彼,更可能是不同类型模型并存并互补的生态系统。

说到“集成模式是不是未来AI趋势”,我觉得肯定是。现在AI模型越来越复杂,单个模型想在所有领域都拔尖太难了。搞个“集成”,就像组装个超级战队,每个成员负责一个特长任务。好处就是能把各自的强项发挥出来,理论上能覆盖更多场景,成本也可能更优化。但难点也很明显啊,就是整合和协调。这次GPT-5的问题可能就是整合得还不够好,或者说不同“队员”的水平差异太大,导致用户体验不稳定。这就像一个团队里,有的队员是MVP,有的却是卧底,当然会拖后腿。未来的挑战就是怎么让这些“队员”无缝衔接,而且得让用户“无感”这种内部集成。

谈到“大模型竞争”和“选全能还是专精”,我觉得现在就是“百家争鸣”的阶段,神仙打架,用户看热闹。GPT-5这次实测表现不稳,说明“全能”也不是那么好做的。Claude和Gemini在某些方面能展现优势,这恰恰说明了市场需要多样性。未来肯定会出现某个领域特别强的模型,比如专门写代码的,专门画画的,或者专门做特定行业分析的。我们普通人怎么选呢?这就像买手机,有人喜欢苹果的生态(全能),有人喜欢安卓的开放和定制(可能某方面很强)。如果只是日常打字聊天写邮件,全能型就好;但如果你是程序员、设计师,那肯定希望能找到一个在编码或图像生成上“一骑绝尘”的模型,效率提升不是一点半点。所以我觉得,先用全能的,等哪天某个“专精型”模型真的“封神”了,再根据自己的核心需求去选。