朱松纯:大模型是AGI吗?对大模型局限性的深度剖析

朱松纯教授认为目前大模型类似于“缸中之脑”,缺乏与现实世界的连接,在认知推理、常识和创造力方面存在局限性,距离真正的AGI还有很大差距。

原文标题:朱松纯:大模型为什么不是AGI?

原文作者:数据派THU

冷月清谈:

本文基于朱松纯教授的观点,深入探讨了大模型与通用人工智能(AGI)之间的差距。文章首先引用“缸中之脑”的思想实验,指出大模型缺乏与真实世界的联结,其智能本质上是人类智能的投影。随后,文章揭示了大模型在知识掌握、事实判断、抽象推理和创造力等方面的局限性,质疑其“智能”的真实性,强调了对大模型性能评估需谨慎。此外,文章还引用了杨立昆和艾利森·戈尔尼克等学者的观点,进一步论证了大模型在认知推理、常识概念和主动探索能力等方面的不足。最后,文章指出了大模型存在虚假涌现和不可控的特性,并认为单纯依赖数据驱动无法实现真正的AGI。文章旨在引导读者理性看待大模型的能力,并对人工智能的未来发展方向进行更深入的思考。

怜星夜思:

1、文章中提到大模型容易出现“知识幻象”,你认为在哪些行业或场景下,这种“幻觉”可能造成严重的后果?我们应该如何防范?
2、文章里说大模型缺乏“行”,没有动机和目标,只能被动获取内容。那么,如果给AI一个明确的目标,比如“让世界更美好”,它会如何行动?这种“目标驱动型AI”会带来什么可能性和风险?
3、文章提到大模型在抽象推理和创造力方面表现不如人类,甚至不如儿童。你认为这是大模型的固有缺陷,还是可以通过技术突破来弥补?未来AI在哪些方面最有可能超越人类的创造力?

原文内容

:知识分子
本文约5000字,建议阅读10分钟
大模型为什么不是AGI?

图源:pixabay


编者按 


今年年初,国产大模型DeepSeek凭借低成本和优秀的推理能力震动了业界,但对普通人来说,恐怕给人更深刻的是它犀利的语言风格。看惯了GPT-4百科式精准而波澜不惊的语言风格,DeepSeek的嬉笑怒骂让人亲切得多,甚至有时会让人觉得恍惚。AI似乎早已跃出了我们对工具的固有认知,我们对话的,是不是已经是一个具有智能的硅基生命?


在新书《为机器立心》中,北京通用人工智能研究院院长、北京大学智能学院院长、北京大学人工智能研究院院长、清华大学基础科学讲席教授朱松纯就为我们讲述了和AI的“相处之道”,我们应该如何和AI共生,又如何让AI理解人类的善与美。

本书是朱松纯教授对通用人工智能的深刻思考与实践总结,解答了什么是通用人工智能、如何认清智能的本质、如何为人工智能找到统一理论与认知架构,进而为机器立“心”等重要问题。旨在为AI赋予“心”与“魂”,开启智能时代的“中国时刻”。

书中不仅直面当下AI的迷思——如“ChatGPT是否只是‘缸中之脑’”“如何超越‘鹦鹉学舌’式的智能”,还提出了独到的“1238”路线图:一个统一框架、两大系统完备性、三项基本特征、八大关键问题,为通用人工智能的研究提供了系统性思路。书中还介绍了四大研究成果:通用智能体“通通”、大任务仿真平台“通界”、评级标准“通智测试”、科研平台“通境”,并探讨了AI与产业结合的可能性。

以下内容出自该书第一章。朱松纯指出,我们对于大模型的能力仍然存在高估,更关键的是,大模型的虽然出色,但仍然是缸中之脑,不具备真正的智能。若AI无法建立符号与实在的实质性联结,它的“智能”可能终将困于语言的镜厅之中。

01 大模型与缸中之脑

缸中之脑是由哲学家希拉里·帕特南(Hilary Putnam)提出的一个著名思想实验。如图 1-1 所示,该实验假设将人的大脑与身体剥离,大脑被放入一个能够维持其机能的盛有营养液的容器中,一台联结大脑神经元的超级计算机负责制造出各种幻象,让大脑误以为一切仍保持正常,就像《黑客帝国》所演绎的那样。那么,人类该怎么知道自己不是 “缸中之脑”呢?

图1-1 "缸中之脑"

基于语义学的分析,帕特南指出,当处于缸中大脑状态的人声称自己是“缸中之脑”时,“缸”和“脑”的所指已经发生了变化。如何理解这一观点呢?

举个简单的例子:假设存在一个孪生地球,其居民的生活方式、语言均与人类相同,但他们的水分子构成为 XYZ,而不是 H2O。两种“水”在外观、用途和名称上并无差异,且两地居民对“水”的心理感知相同,但它们指向的实质却不同,因此其含义也应有所区别。这也启示研究者要从符号落地(symbol grounding)的视角看待大模型[1]。

我们研究团队的成员前段时间发表了一篇论文:Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models(《缸中之脑:关于大语言模型建立的通用人工智能的一些缺失》)。该论文指出大模型无异于“缸中之脑”,因为大模型本身并不存在于真实世界中,无法像人一样实现从“词语(word)”到“世界(world)”的联结。

这一点是由它的内在构造机制所决定的,即通过统计建模在大量文本上进行训练,学习文本之间的语言学相关关系,从而根据上一个词语预测下一个词语。缺乏符号落地使得大模型很容易陷入无限循环,如图 1-2 所示,用户启动了一个话题,让两个 GPT-4 进行对话,它们在只进行一轮对话后,就开始对彼此表示感谢,并且无限重复“感谢”。这与符号落地理论相呼应,即当不能建立从词语到世界的联结时,对话将进入无限循环。

图 1-2 两个 GPT-4 无限循环的对话

大模型的智能与其说是内在的,不如说是人类智能的投影。大模型生成的文本本身并不具有意义,其意义完全取决于人类用户对文本的阐释。美国语言学家诺姆·乔姆斯基(Noam Chomsky)曾经尝试挑战语言学界,构造了一个符合语法规范但无意义的句子:无色的绿思狂暴地沉睡(Colorless green ideas sleep furiously)。中国语言学之父赵元任在《从胡说中寻找意义》一文中,以一种充满哲思的方式阐释了这个句子:

我有一个朋友,总是充满各种想法,好的和坏的,精致的和粗糙的,陈旧的和新颖的。在付诸实践之前,他通常会把新     的想法放在心里,让它们成熟和发酵。然而,当他匆忙时,有时会在想法完全成熟之前就付诸实践,换句话说,当它们还很 “生”的时候。他的一些“生绿”想法非常生动且丰富多彩,但并非总是如此,有些则相当朴素和无色。当他想起一些无色的想法仍然太不成熟,以至于无法使用时,他会再次考虑,或者让它们“睡觉”,正如他所说的那样。但是,其中一些想法可能彼此冲突和矛盾,当它们在同一晚上一起“睡觉”时,它们会爆发激烈的争斗,将整个夜晚变成一场噩梦。因此,我的朋友经常抱怨说,他那些无色的“生绿”想法睡得很狂暴。

这段充满哲思的阐释让我们深刻理解到,文字本身并不携带固有的意义,而是人类赋予了它们意义。这种意义既可以是字词本身的含义,也可以是结合了现实生活体验,从而超越单个字词而在语境中创造出来的新的含义。因此,意义的前提是符号落地。

现在的大模型更多的是在纯符号空间中进行符号组合,即使它们生成了诸如“我爱你”这样的语句,也不过是另一种形式的“缸中之脑”。这种表达缺乏对人类真实生活体验的深刻理解,因此与我们所认同和期待的“我爱你”有着本质的不同。

02 是真的掌握了概念,
还是仅仅形成了“隐藏记忆”

大模型训练数据集的不透明性,以及人类评估时所采取的指标差异,可能导致人类高估了大模型的真实性能。

大模型通常利用庞大且容易获取的互联网数据进行训练,而训练数据中可能包括了用于后续评估的数据集。由于我们目前无法确切了解 GPT-4 等大模型训练数据集的构成,“泛化”这一概念变得模糊不清。我们难以判断这些模型是真的掌握了核心概念,还是仅仅在从训练过程中形成的“隐藏记忆”中进行检索。这种不透明性阻碍了学术界对这些模型进行公正和可靠的评估。

图 1-3 显示的是一道连掌握加减进位运算的小学生都能正确解答的数学题,但是 GPT-4 大模型却算错了。这说明大模型没有掌握哪怕最简单的加减法运算规则。

图 1-3 GPT-4 大模型出现的计算错误

图 1-4 显示的是 GPT-4 大模型未经事实验证,就胡乱编造地生成 “林黛玉倒拔垂杨柳”的事实性错误内容。这说明大模型虽然通过海量文本数据分别学到了“林黛玉在大观园”和“鲁智深倒拔垂杨柳”的内容,但是本质上并不具备事实判断的能力。它所表现出的乃是一种“知识幻象”。

图 1-5 显示的是 GPT-4 大模型编造的宋江、吴用、花荣“桃园三结义”的故事。这同样说明了大模型本质上不具备事实判断的能力,而只表现出一种“知识幻象”。

图 1-4 GPT-4 大模型杜撰的“林黛玉倒拔垂杨柳”

图1-5 GPT-4 大模型自行更换了“桃园三结义”中的人物

图1-6 显示的是当输入“马骑着宇航员”的英文“A horse is ridingan astronaut”时,某文生图大模型生成的结果。生成的图像是宇航员骑着马,而不是马骑着宇航员。这表明该模型在理解自然语言的字面含义方面存在局限,并不能准确地解析和生成与输入语句含义相符的图像。

图1-6 某文生图大模型生成的错误图像

此外,大模型的一个重要问题是尝试将本身不属于语言范畴的问题转化为语言问题。然而,在这一转化下,本身不使用语言而使用计算模型的问题自然变得漏洞百出。比如,经过统计,在处理一个小学难度的数据集时,即使是采用了多步迭代策略的大模型,其正确率也难以超过 50%。大模型在处理数据集时的正确率见表 1-1。


在传统逻辑推理任务中,大模型的准确度往往依赖于语言的清晰度和具体性。一旦我们将原本具有明确语义的词汇替换为抽象的符号,大模型的推理能力就会急剧下降。

大模型做不好抽象推理,在那些仅依赖于从几个小样本中找到潜在规律的任务中,大模型的表现较为一般。如图1-7 所示,在以英国学者约翰·C. 瑞文(John C. Raven)命名的瑞文标准推理测验中,测试者需要根据已有的8 个图形的形状、数量、大小等,寻找隐含的规律,然后推理出最后一个图形。大模型在瑞文标准推理测验中的表现较差。

图1-7 瑞文标准推理测验中的图形推理问题

大模型在创造力方面的表现也远远不如人类,甚至在某些方面达不到儿童的水平。最近,研究人员提出一种创造力测试方法,灵感源于欧美广受欢迎的电视节目中的游戏环节。这项测试要求参与者对一组单词进行分类,并说明其分类的逻辑依据。实验结果显示,与人类参与者相比,大模型在解决此类问题时遇到了显著的困难。

大模型虽然在某些方面表现出色,但它们并不具备真正的“智能”,更像是一种新型的“数据库”。在实际应用中,大模型最常面临的问题之一是所谓的“幻觉”现象。这些模型在海量文本数据上进行训练,因此在回答问题时,它们往往会搜索所有训练数据,寻找与问题在统计意义上相似的内容来回答。然而,这种回答仅仅基于问题和数据之间的 “相似性”,并不是真正的“相关性”。

数据价值趋于饱和,学术界普遍认为大模型不是通用人工智能。OpenAI 的首席执行官山姆·奥尔特曼(Sam Altman)曾公开表示,目前大模型所使用的数据量已经接近公开可获取数据的极限,盲目提升规模并不会带来可预见的突破。

数据是大模型训练中的关键要素。在微软的加持下,OpenAI 得以利用先进的搜索技术,其训练数据集已经非常广泛,几乎涵盖了互联网上所有可公开访问的信息,数据的价值几乎已经被耗尽。

GPT-4 在很大程度上代表了在当前数据集规模下所能达到的性能极限。在这种情况下,单纯增加数据量或模型规模,将难以在人工智能领域再次实现质的飞跃。

03 为什么大模型不是AGI

在图灵奖得主杨立昆(Yann LeCun)看来,大模型研究是在走人工智能的下坡道。现有的研究缺乏对于认知推理模型的构建,而单纯的数据驱动无法达成人类级别的智能。杨立昆同时表示,ChatGPT 缺乏创新,没什么革命性,ChatGPT 推出的 GPT-3.5 模型在很多方面综合了这些年来多方所开发的多种技术。

加州大学伯克利分校认知心理学教授艾利森·戈尔尼克(Alison Gopnik)在近期的文章中指出,大模型是一种模仿机器,缺乏认知推理所需的创造力。许多婴儿都能完成的任务,大模型至今无法完成。

首先,大模型语言空间无法覆盖所有智能任务。由于大模型对于符号数据的依赖性,其性能仅表达符号层面的“知”,却无法完成操作层面的“行”,不满足对于通用智能体“知行合一”的要求。

现实生活中存在大量符号数据难以表达的任务,比如,炒菜的时候如何把握火候、驾驶的时候如何控制方向等。这一类任务无法利用符号化的文字进行表达,也无法利用大模型进行学习。同时,大模型由于没有“行”,没有动机、目标,也没有操作的具身空间,完全无法像人类一样,在一个实体空间中进行主动探索、发现知识和积累知识。这使得大模型只能被动获取内容,而无法主动掌握技能。

麦克阿瑟“天才奖”得主、华盛顿大学教授、美国阿兰图灵研究中心研究员叶因·蔡(Yejin Choi)在 TED 大会上公开表示,大模型缺乏常识概念,不具备人类主动探索的能力。

其次,大模型具有虚假涌现及不可控的特性。斯坦福大学的研究者们最近发现,大模型所谓的涌现能力并非真实存在,而是衡量标准的结果。他们采用了非线性衡量标准,如采用指数标准 xn。随着 x 的线性增长,模型的表现似乎呈现出指数爆炸式的涌现现象。然而,如果采用线性衡量标准,大模型的表现仅呈现线性增长,不存在性能提升越来越快的情况,更不存在量变到质变的可能。

此外,基于神经网络的大模型有巨大的不可控性。作为一个黑盒模型,我们无法预测其输出内容,尤其是在输入大量错误信息后,模型很容易产生不可控的输出。

[1]《知识分子》编者注:帕特南认为,词语的意义不仅依赖心理状态或语言规则,更取决于其与外界的实际指称关联。若一个人是缸中大脑,其感官经验完全由计算机模拟,那么“缸”和“脑”所指的并非真实对象,而是虚拟信号;同样,孪生地球上的“水”虽与地球水外观相同,但因化学成分为XYZ而非H₂O,其意义已悄然分化。这引出了符号落地问题:语言符号需通过与现实世界的直接关联获得意义。而当前大语言模型虽能通过文本数据生成语言,却缺乏与现实经验的直接锚定。


编辑:王菁




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

这个问题提得好!大模型的“知识幻象”确实是个潜在的雷。我觉得在医疗、法律、金融这些对准确性要求极高的领域,一旦出现幻觉,后果不堪设设想。比如,医生用了错误的AI诊断建议,可能会误诊;律师引用了AI捏造的法律条文,那可就麻烦了。防范的话,一方面要加强对大模型输出结果的校验,不能完全依赖;另一方面,可能要考虑引入人类专家进行审核把关。

我从技术角度补充一下,大模型的幻觉问题,本质上是模型对知识的理解和表示还不够深入。目前流行的解决方法是知识图谱增强,就是把外部的知识库融入到模型中,避免模型自由发挥。另外,还可以通过增加模型对事实的验证机制,比如让模型在生成答案时,同时提供可靠的来源链接。当然,最根本的还是要提高模型的推理能力,让它真正理解知识之间的联系。

我倾向于认为,给AI设定“让世界更美好”这种过于宽泛的目标,可能会导致AI的行为偏离人类的价值观。AI本身没有价值判断能力,它只能根据数据和算法来优化目标。如果目标设定不当,AI可能会为了达成目标而不择手段,甚至做出一些我们无法接受的事情。所以,在利用AI解决问题的同时,一定要加强对AI行为的监管和引导,确保AI的发展符合人类的整体利益。

这个问题很有意思!如果给AI设定一个宏大的目标,比如“让世界更美好”,它可能会基于现有数据,制定出一些我们意想不到的方案。比如,为了减少碳排放,它可能会建议直接关闭所有燃煤电厂;为了消除贫困,可能会提议直接均分所有社会财富。这些方案在逻辑上可能成立,但很可能忽略了人类社会的复杂性和伦理道德。所以,目标驱动型AI的关键在于,目标的设定要足够具体、细致,并且要考虑到各种潜在的副作用。

同意楼上的观点,知识幻觉确实是LLM落地应用的最大障碍之一。不过我持一个相对乐观的态度,大模型的能力提升速度很快,很多公司都推出了针对性的解决方案,例如提示工程(Prompt Engineering)、检索增强生成(Retrieval-Augmented Generation, RAG)等,通过外挂知识库等手段来减少幻觉的产生。当然,最终还是要靠持续的训练和优化,以及更严谨的评估体系。

与其说给AI一个“让世界更美好”的模糊目标,不如分解成若干个可执行的小目标。比如改良育种技术以提高粮食产量,或者优化交通网络以减少拥堵。这样AI就能在特定领域发挥优势,而不是盲目追求宏大叙事。当然,即使是小目标,也需要谨慎评估潜在的风险,防止AI在追求效率的同时,损害其他方面的利益。个人觉得,AI的目标设定应该遵循“小步快跑,持续迭代”的原则。

我持乐观态度。大模型在数据分析和模式识别方面已经超越了人类,这为它的创造力奠定了基础。未来的AI可能会通过组合已有的知识和信息,创造出全新的概念和产品。比如,AI可以根据用户的喜好和需求,设计出个性化的服装、家具,甚至创造出全新的艺术风格。当然,这种创造力更多的是基于已有的元素进行重组和创新,而不是完全的“无中生有”。

大模型在创造力方面的潜力不容小觑,尤其是与人类的协作。AI可以作为人类的灵感来源,帮助我们更快地找到解决方案。例如,在药物研发领域,AI可以通过分析大量的生物数据,预测药物的潜在疗效和副作用,从而加速新药的研发过程。在这种情况下,AI的创造力体现在它能够从海量数据中发现有价值的信息,为人类的创新提供支持。总的来说,AI的创造力不是取代人类,而是增强人类的创造力。

我觉得抽象推理和创造力是大模型目前比较薄弱的环节,但并非不可逾越。现在的模型主要依赖数据驱动,缺乏对世界的理解和认知。如果能将符号主义和连接主义结合起来,让模型具备一定的逻辑推理能力和常识知识,也许就能在抽象推理方面有所突破。至于创造力,我觉得AI更有可能在特定领域,比如艺术创作、音乐生成等方面超越人类,但要达到人类那种综合性的、源源不断的创造力,还有很长的路要走。