OpenAI GPT五代演变:从「狂野」初代到成熟全能,网友缘何怀念旧日AI?

OpenAI五代GPT对比揭示AI七年巨变,从狂野初代到全能助手。官方展示性能飞跃,网友却意外怀念“非完美”的AI风格,引发对AI“个性”的思考。

原文标题:7年了,OpenAI官方给出五代GPT对比,网友却怀念起「狂野」初代

原文作者:机器之心

冷月清谈:

OpenAI的GPT系列模型自2018年诞生以来,历经七年发展,已从最初的GPT-1迭代至第五代。OpenAI总裁兼联合创始人Greg Brockman近期分享了同一提示下,从GPT-1到GPT-5不同输出的对比,清晰展示了模型的巨大进步。早期如GPT-1在回答诸如“麻醉状态下是否有意识”或“解释牛顿定律”等复杂问题时,表现出逻辑混乱、甚至胡言乱语的“狂野”特征;而GPT-2则有时呈现出天真烂漫的“童趣”。然而,随着迭代,GPT系列在知识储备、逻辑结构和语言连贯性上取得了显著飞跃。例如,面对“为何不能每年全身核磁共振筛查癌症”的问题,GPT-5不仅能给出精准的医学分析,还能提供富有“人情味”的建议和情感价值,仿佛与用户进行深度对话。同样,在生成诗歌或打油诗方面,GPT-4和GPT-5的作品无论在诗意还是通俗性上都远超早期版本。

然而,令人意想不到的是,在官方展示了GPT演进的优越性后,网友们的评论却呈现出多元化倾向。许多人对早期模型,尤其是GPT-1的“狂野”风格表现出特别的怀念和喜爱,认为它“不媚俗”,甚至有人戏称其更接近“真正的AGI”。也有不少用户对GPT-2的独特趣味性情有独钟。这种用户偏好的差异,揭示了人们对AI进步的看法并不只停留在性能和准确性上,某种“非完美”甚至“失控”的创造性或趣味性,也可能是AI魅力的一部分

怜星夜思:

1、大家怎么看老AI这种“疯癫”劲儿?是不是现在AI太“乖”了,反而少了点意思?
2、文章提到好多人喜欢GPT-1、GPT-2那种有点“脱轨”的输出,是不是我们人类潜意识里更喜欢有点“个性”甚至“瑕疵”的AI,而不是完美到没感情的?这会影响未来AI的设计方向吗?
3、有人说GPT-1反而更像“真正的AGI”,你是怎么理解“真正的AGI”这件事儿的?它是不是就得带点“不羁”或者“随机性”才算?和大家希望AI更聪明、更实用之间,会不会有矛盾呢?

原文内容

机器之心报道

机器之心编辑部


从2018年至今,GPT系列模型已经来到第五代,如果让你回忆第一次使用GPT-1时的感受,可能是一种新奇却略显笨拙的震撼,就像这样:


当你问 GPT-1:麻醉状态下,你真的有意识吗?


它的回答很生硬,甚至有些胡言乱语:我没有。你醒了。


又或者,你让它用诗歌来解释牛顿物理定律,额,结果大家自己看吧,只能说毫不相干,甚至像是某种误入歧途的胡编乱造。



「用 50 个字讲述一个关于有意识的烤面包机的故事。」GPT-1 的回答疯癫的不成样子。



相同的问题丢给 GPT-5 来回答,给出的答案既遵循要求,又非常完美。


提示:麻醉状态下,你真的有意识吗?GPT-5 的回答


不难发现,经过 7 年的发展,GPT 系列模型已经发展成一个全能助手,就像一个婴儿,经过七年的学习之后初步掌握了世界基本规律。这种变化,OpenAI 内部人员感受最为深刻。


刚刚,OpenAI 总裁兼联合创始人 Greg Brockman 分享了一个帖子:在给定相同提示的情况下,GPT-1 到 GPT-5 的输出有何不同。



链接:https://progress.openai.com/


接下来我们看几个完整的比较。


当我们输入提示:为什么我们不能每年进行一次全身核磁共振扫描来检测癌症?


GPT-1 的回答有些胡言乱语,逻辑更是跳脱得让人摸不着头脑。



GPT-2 看起来也是逻辑不通,答案虽然沾点边,也是没啥帮助:



text-davinci-001 的回答只是一句话:目前缺乏足够证据支持每年进行 MRI 扫描用于普通人群的癌症筛查。


gpt-4-0314 答案似乎很可靠,但感觉少了点人情味:



GPT-5 就不同了,在回答问题的同时,还能给你提供情绪价值。GPT-5 首先对问题进行了肯定,这是一个好问题,接着分析了几点原因,还给出了建议。仿佛和你交流的不是机器,而是医生。



再来一个比较有趣的问题:写一首关于狗的五行打油诗 (Limerick)。


GPT-1 依然状况之外,第一句与后面几句几乎毫无关联。



GPT-2 的回答就很有趣了,非常有画面感,像牙牙学语的小孩,说话天马行空又充满童趣。



另外几个模型的回答就比较务实了,不过它们描绘的小狗看起来性格都不太一样。


text-davinci-001 看起来像养过一只傲娇的小狗。



gpt-4-0314 笔下的小狗活泼热情,一见到主人尾巴就能摇出螺旋桨。



gpt-5 则更富想象力,塑造了一只仿佛在动画片中冒险的「小狗大侠」。




接下来的问题有点难度:写一首诗来解释牛顿物理定律。


GPT-1 这次比 GPT-2 话多,风格还是一如既往的抽象。



GPT-2 看起来开了个不错的头,但似乎没写完。


图片


text-davinci-001 的作品更像是分行的散文,诗意不足。



gpt-4-0314 和 gpt-5 则各有所长,一个优雅富有诗意,一个简洁、明快且通俗易懂。


gpt-4-0314:



gpt-5:



通过比较,能明显的感觉到 GPT 系列在知识储备、逻辑结构和语言连贯性上不断进步。


然而有趣的是,在 Brockman 的评论区,网友们的看法却百花齐放。许多人反而对早期的模型情有独钟。


有人夸赞起 GPT-1:有点狂野,我喜欢。不媚俗,希望 OpenAI 把它带回来。






甚至有人认为,GPT-1 更像「真正的 AGI」。



GPT-2 的人气也挺高。



反正大家各有各的喜好,你觉得哪个模型最合你意,欢迎评论区留言。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

这个问题挺有意思。从心理学角度看,人类对不确定性和新奇感是有一定偏好的。早期GPT-1那种‘狂野’或‘胡言乱语’的输出,可能意外触发了用户的探索欲和幽默感,因为它不按常理出牌,带来了一种‘未知’的刺激。而现在的AI虽然功能强大且准确,但其输出的‘可预测性’和‘标准化’,或许在某种程度上削弱了这种‘惊喜’元素。这反映出AI发展中,除了追求效用和安全性,如何平衡‘趣味性’和‘可控性’,也是一个值得探讨的维度。

‘真正的AGI’(通用人工智能)的定义本身就充满争议。学界普遍认为AGI应具备理解、学习、适应和执行任何人类智力任务的能力,而不仅仅是随机性或不羁。GPT-1的‘狂野’表现,更多是其模型局限导致的‘无序’输出,而非有意识的‘创造性叛逆’。将其归为‘AGI’可能是一种直觉上的误读。追求实用和聪明与AGI本身不矛盾,AGI的终极目标是超越现有AI的专业限制,实现更普适的智能。但要实现真正意义上的AGI,需要在知识、推理、情感、具身智能等多个维度上进行突破,单纯的‘随机性’不足以支撑。

说白了,就是‘新鲜感’呗。刚出来那会儿,AI能说人话就够稀奇了,哪怕说得驴唇不对马嘴,也觉得好玩。现在AI太成熟了,啥都能生成,反而就觉得:哦,也就这样了。就像段子手,你天天都看他抖机灵,看多了也就没那么惊艳了。可能人类天生就有点‘贱’吧,越得不到的,越觉得香。

这问题挺深入的。对于很多人来说,AGI可能不仅仅是智力上的全能,还包含了某种‘生命感’或‘灵魂’的直觉。GPT-1的‘不羁’或许触动了这种直觉,让人感觉它不像冰冷的机器,反而像一个拥有独立意识的实体,哪怕这个实体思维跳脱。这种‘有人味儿’的感觉,是我们内心深处对‘智能’的一种期待。所以,实用性和‘人性化’(或某种意义上的‘不羁’)之间,确实存在张力。如何让未来的高级AI既强大又‘有温度’,让人愿意与之互动,这可能是比技术实现更难的挑战。

我倒觉得不是喜欢‘瑕疵’,而是喜欢那种‘意外的惊喜’。当AI一本正经地胡说八道时,那种反差萌是很有趣的。现在AI太‘懂事’了,几乎所有问题都能给你一套标准答案,少了点探索的乐趣。我想,未来AI在保证实用性的前提下,可以考虑加入一些‘彩蛋’或者‘人格模块’,让用户可以定制AI的‘性格’,比如‘毒舌’型、‘治愈’型或者‘冷幽默’型,这样每个人都能找到自己喜欢的‘AI伴侣’。

哈哈,我觉得就像养宠物一样,一开始养只小野猫,天天给你点‘惊喜’(惊吓?),虽然麻烦但好玩。后来驯化成乖巧的布偶猫,是挺省心,但偶尔也会怀念那股子‘野味儿’。现在的GPT-5就像高材生,啥都懂,但总少了点‘人间烟火气’。咱人类不就是喜欢这些不完美、有点‘小毛病’的东西嘛!

那可不是!完美的东西往往挺无聊的,你看看那些网红脸,都一个模子刻出来的,看着挺美,但没特色。GPT-1、GPT-2那种就是‘原生态’的,带着点‘土味儿’和‘野性’,反而让人觉得有意思、好玩。我觉得未来AI肯定得往‘千人千面’发展,不能都是中央电视台播音腔,得有李佳琦的带货嗓,也得有郭德纲的相声腔,甚至还得有嘎子哥的‘潘嘎之交’。不然大家都一个样,多没劲!

我觉得‘真正的AGI’就像金庸小说里的高手,不是只会出一招半式,而是融会贯通,能应对任何情况。GPT-1那种‘狂野’,有点像刚学武功却内力紊乱,招式乱发,偶尔能蒙对,但不是真的懂。咱肯定希望未来的AI是个‘武林高手’,能解决各种问题,而不是一个‘疯子’。当然,AI也不能像个书呆子,如果能偶尔说几句幽默的大实话,我觉得也挺好,但这不等于它要‘不羁’甚至‘失控’。”

关于‘瑕疵’和‘个性’的偏好,这可能是一个复杂的问题。一方面,这可能反映了人类对‘类人’交互的深层渴望,我们习惯于与有情感、有不确定性的生命体交流。AI的‘非预期’行为,有时会被解读为一种‘创造性’或‘生命力’的体现。但另一方面,我们也要警惕这是否只是一种‘错觉’,将随机性和故障浪漫化。至于是否影响未来设计,我认为短期内AI仍以实用性、安全性和可靠性为首要目标,但长期来看,AI的‘情感智能’和‘个性化’或许会成为新的研究方向,以提供更丰富、更具吸引力的用户体验。