AI 新前沿:模拟社会,探索「如果...会怎样?」的无限可能

斯坦福研究者认为AI的下一个前沿是模拟社会,通过高保真模型预测和优化复杂现实世界的互动,以实现更好的决策和对世界的理解。

原文标题:AI下一前沿是模拟社会!「斯坦福AI小镇」创业后,西部世界雏形初现

原文作者:机器之心

冷月清谈:

斯坦福大学副教授 Percy Liang 认为,人工智能的下一个前沿是「模拟」社会,即构建一个能够预测在任何给定情景下会发生什么的模型。他指出,目前人工智能在拥有清晰环境与奖励机制的领域取得了显著成就,但面对涉及人类的复杂现实世界问题时仍面临挑战。为了解决这一难题,Simile 团队正在开创 AI 模拟领域,致力于开发人类及其环境的高保真模型,高效地进行大规模模拟,并建立模拟的信任度。他们相信,模拟不仅能预测未来,还能评估干预措施和回答反事实问题,从而实现更好的决策,并让我们对自身和世界有更深刻的理解。模拟位于可能与不可能的分界线上,是通往稳健超智能的真正路径。

怜星夜思:

1、文章中提到需要开发人类及其环境的高保真模型,你认为目前AI在模拟人类行为和情感方面最大的挑战是什么?有哪些技术或数据是目前所欠缺的?
2、文章提出高效地进行大规模模拟是一个挑战,如果让你设计一个系统来模拟全球80亿人一年的活动,你会如何权衡模拟的精度和计算成本?有哪些优化策略?
3、文章提到模拟需要建立信任,模型必须对可能结果的分布产生经过校准的概率估计。你认为如何评估一个「社会模拟」的质量和可信度?如果模拟结果与现实出现偏差,应该如何修正?

原文内容

图片
编辑|杜伟

进入到 2026 年,人工智能领域被一只「龙虾」(OpenClaw)硬控了。这种具备高主动性、强活人感的私人 AI 助理成为了新一代人机交互的标杆。


然而,在应用层的狂欢背后,关于「人工智能的下一个前沿」究竟在哪,业界正产生更深层的共思。


对于这个问题,我们势必会听到不一样的答案。此前,英伟达高级研究科学家 Jim Fan 认为世界建模是,大型世界模型将开启为机器人学习以及更广泛多模态 AI 奠定真实基础的元年。


今天,斯坦福大学副教授 Percy Liang 旗帜鲜明地表示,「模拟将是人工智能的下一个前沿。」同时,他还是孵化自爆火「斯坦福 AI 小镇」项目的创业公司  的联合创始人,该公司在上个月宣布完成了 1 亿美元融资,投资人包括了李飞飞、Andrej Karpathy 等众多 AI 大佬。


在他看来,迄今为止,人工智能最令人瞩目的成就都源于那些拥有清晰环境与奖励机制的领域,无论是击败李世石的围棋对决、夺得国际数学奥林匹克(IMO)金牌,还是从零开始编写完整的应用程序。在这些场景中,强化学习算法可以尝试不同的行动,并在安全的 Docker 容器中观察那些定义明确的结果。


但是,面对涉及人类的、混乱的现实世界情况时又该如何呢?在现实中,奖励机制模糊不清,风险巨大,且无法直接进行实验。这些情况恰恰是人工智能下一个重大机遇所在。


为了攻克这一难题,我们需要「模拟」社会(即将社会放入 Docker 容器中)。这意味着要建立一个能够预测在任何给定情景(真实或假设)下会发生什么的模型。如果能实现这一点,我们的能力将仅仅受限于想象力:预测未来、优化结果、回答假设性(「如果 …… 会怎样」)问题。最终,这不仅仅是为了做出更好的决策,更是为了让我们对自身和这个世界有更深刻的理解。



Percy Liang 关于模拟「社会」的一系列观点得到了很多人的认同:





在 Percy Liang 撰写的一篇博客文章中,我们看到了他及其所在公司 Simile 关于 AI 进入模拟时代的畅想、面临的挑战以及未来的发展潜力。


研究连接了可能与不可能。在预测时代,我们实现了训练通用模型以高精度分类文本和图像。在推理时代,我们正让模型具备解决挑战性数学、代码以及其他复杂的、多步骤问题的能力。但那些答案取决于大量人类长期互动所产生的涌现结果的、复杂的现实世界问题该如何解决?比如:


  • 如果我们允许远程办公,我们组织的生产力和文化会发生怎样的变化?

  • 我们该如何为数百万学生重新设计三年级数学课程?

  • 如果医生按团队成果进行考核,临床文化会如何转变?


这些问题需要更多支持:它们需要对给定情况下将发生的事情有极其精细的理解。换句话说,它们需要我们进行模拟。


在 Simile,我们相信我们即将进入模拟时代 ——AI 的下一个前沿。模拟的核心在于对我们自身及环境的深度理解,以至于能够推演任何可以想象的「如果…… 会怎样?」的情景。


Simile 团队开创了 AI 模拟领域。我们开发了具有涌现行为的多智能体模拟、模拟了在线社交互动,并创建了能够准确代表真实个体的智能体。为了释放模拟的全部潜力,我们必须应对以下挑战:


  • 开发人类及其环境的高保真模型:当今的语言模型并不能捕捉人类行为的细微差别。我们需要新颖的数据采集策略来获取这些潜在知识,并训练能够推导至新情景的基座模型。

  • 高效地进行大规模模拟:我们如何模拟 80 亿人一年的活动?我们必须开发多尺度模型,以便模拟整个人群随时间推移的宏观和微观动态。

  • 模拟必须建立信任:我们的模型必须对可能结果的分布产生经过校准的概率估计。在这里,模拟本身作为一个可解释的产物,与具体现实紧密相连。


模拟将开启哪些可能呢?


首先,模拟器允许我们预测未来:给定当前状态,模拟接下来会发生什么。但模拟器的功能远不止于此。模拟器是世界的因果模型。根据 Pearl 的因果层次理论,我们可以评估干预措施:如果我们做出某种决定,会发生什么?或者更具野心地说,我们可以回答反事实问题:如果我们过去实施了某种决定,结果又会如何?回答此类问题的能力不仅能实现更好的决策,还能让我们对自身和世界有更深刻的理解。


模拟时代正在开启:预测模型可以生成最优行动,但无法解释原因。推理模型可以讲述故事,但这些故事不一定基于现实。模拟为世界上最复杂的问题提供了完整的、可审计的轨迹。模拟将要发生的事情比预测该做什么更难。但我们相信,这是通往稳健超智能的真正路径。模拟位于可能与不可能的分界线上


参考链接:

https://www.simile.ai/blog/simulation-next-frontier

https://x.com/percyliang/status/2031392872310911430


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

教育领域也有可能。我们可以用AI模拟不同教学方法对学生的影响,甚至可以针对每个学生定制个性化的学习方案。这不比传统教育“一刀切”强多了?

积极的影响有很多啊,比如可以更好地预测和应对危机事件,优化资源配置,提高社会效率。想象一下,如果能够提前预测到疫情的爆发,并模拟出各种应对措施的效果,那就能最大限度地减少损失。

我觉得是伦理问题。模拟人类行为,涉及到隐私、歧视等很多敏感问题。如果模型中存在偏见,可能会对现实世界产生负面影响。所以,在技术发展的同时,也要重视伦理方面的考量。

个人觉得是游戏领域。这不就是现在流行的NPC智能化吗?本质上就是在一个虚拟社会里模拟个体行为。而且游戏对容错率要求更高,可以更快地迭代和验证AI模拟的效果。

学术一点说,目前的AI模型在处理人类行为的微妙之处时,主要面临以下几个局限:
1. 数据偏差: 训练数据可能无法充分代表真实世界的多样性,导致模型在特定群体或情境下的表现不佳。
2. 因果关系理解不足: 模型可能能够识别行为之间的相关性,但难以理解其背后的因果关系,从而难以准确预测行为。
3. 情感和动机建模困难: 人类行为常常受到情感、价值观和动机的影响,而这些因素难以被量化和建模。
4. 常识推理能力不足: 模型可能缺乏人类所拥有的常识,导致在某些情境下的判断失误。

要实现高保真的人类行为模拟,需要更深入地研究人类行为的内在机制,并开发更先进的建模方法。

有没有人觉得,AI 模拟结果的可信度,和我们对 AI 的接受程度也很有关系?现在很多人对 AI 还抱着怀疑态度,觉得 AI 不靠谱,那就算 AI 模拟的结果再怎么准确,他们也未必会相信。我觉得要提高 AI 模拟结果的可信度,一方面要努力提高 AI 技术的水平,让 AI 更加智能、更加可靠;另一方面也要加强对 AI 的科普宣传,让大家更多地了解 AI,消除对 AI 的误解和偏见。当然如果AI能自己生成一些“反直觉但却被验证是正确的结论”就更好了。

我觉得“模拟必须建立信任”这句话说得太对了!你想啊,如果 AI 模拟出来的结果跟现实完全不符,或者充满了偏见和漏洞,谁会相信它?信任是 AI 模拟应用的关键。要建立信任,我觉得至少要做到这几点:一是数据要真实可靠,不能用虚假或者有偏差的数据来训练模型;二是模型要透明可解释,不能是个黑盒,让人搞不清楚它为什么会得出这样的结论;三是要进行充分的验证和测试,确保模型在各种情况下都能表现良好。还有,我觉得很重要的一点是要让人类专家参与到模拟的过程中,让人来把关和监督,这样才能更好地建立信任。

我认为“不可能”的是完美模拟突发事件对社会的影响。比如,一场超大型的自然灾害,或者一次意料之外的金融危机。这些事件往往具有高度的随机性和不可预测性,而且会对社会造成多方面的、深远的影响。即使我们能够建立一个非常复杂的 AI 模拟系统,也很难准确地预测这些事件的影响。因为这些事件往往会引发人们的情绪波动、社会恐慌和行为模式的改变,而这些因素是很难用模型来准确捕捉的。所以,在面对这些突发事件时,我们仍然需要依靠人类的智慧和经验来做出决策。

这个问题很有意思!组织文化确实太抽象了。我觉得要靠谱地模拟组织文化,现在还远着呢。首先数据采集就是个大难题,除了员工的行为数据(比如开会频率、邮件往来)之外,还得想办法量化员工的情绪、价值观这些主观的东西。可能需要结合心理学调查、自然语言处理分析沟通内容,甚至需要脑机接口来监测员工的脑电波了(手动狗头)。其次,建模也难,得考虑个体差异、人际互动、领导风格等等,变量太多了。感觉起码得等通用人工智能(AGI)出来,并且对人类社会有深刻理解才行。

谢邀,人在摸鱼,刚看完论文。我从一个学术角度来试着分析一下,想要较为完整地模拟组织文化,至少需要考虑以下几个层面:

* 个体层面: 员工的价值观、性格、工作满意度、绩效等,这些可以通过心理测量学量表、问卷调查、绩效考核等方式获取数据。
* 关系层面: 员工之间的社会关系网络、沟通模式、合作模式等,可以通过社会网络分析、邮件/IM数据分析等方式获取数据。
* 组织层面: 组织的规章制度、领导风格、决策机制、创新氛围等,可以通过文件分析、访谈、观察等方式获取数据。

然后,需要构建一个多Agent模型,模拟员工在不同情境下的行为,观察组织文化的演变。这个过程可能需要用到强化学习、博弈论等技术。当然,最重要的是要有一个强大的计算平台和足够多的数据。

同意楼上的观点,组织文化这种东西太复杂了。我个人觉得,短期内比较可行的方案可能是先聚焦在特定类型的组织和问题上,比如模拟一个小型创业团队在不同远程办公政策下的协作效率。数据方面,除了行为数据,可以考虑引入一些定性的数据,比如员工访谈、观察记录等等。建模方面,可以尝试用一些Agent Based Modeling的方法,模拟个体之间的互动,看看能不能涌现出一些有趣的现象。另外,我觉得很重要的一点是,要让模拟的结果能够被业务专家理解和验证,否则就变成了纯粹的理论游戏了。

我理解的“模拟必须建立信任”是指,AI模拟的结果不能是空中楼阁,必须和现实世界紧密相连,有据可查。要让人相信AI模拟的结果,我觉得要从这几个方面入手:

* 可解释性: AI模拟的结果必须能够解释其背后的逻辑和原因,不能是简单的“黑箱”预测。
* 可验证性: AI模拟的结果需要能够被现实世界的数据或者实验所验证,确保其准确性和可靠性。
* 透明度: AI模拟的过程需要公开透明,让用户了解数据的来源、模型的构建和算法的运行机制。
* 校准: AI模型需要对可能结果的分布产生经过校准的概率估计,让用户了解预测的置信度和风险。

总之,要让AI模拟的结果具有说服力,就需要让其更加透明、可信和可靠。

这句话有点哲学意味啊。我觉得“模拟位于可能与不可能的分界线上”是指,AI 模拟正在挑战我们对现实的认知边界。有些事情,我们以前觉得是完全不可能预测或者控制的,但现在通过 AI 模拟,我们似乎看到了实现的可能性。至于目前“不可能”的是什么,我觉得是完全准确地预测人类行为和复杂社会系统的演变。人类太复杂了,社会系统也太复杂了,变量太多,而且很多变量我们根本无法测量或者理解。目前的 AI 技术还无法完全捕捉这些复杂性,所以模拟的结果往往只能是近似的、概率性的。

我觉着除了跟历史数据比,还要引入专家评估。找一些相关领域的专家,比如社会学家、经济学家、政治学家等等,让他们对模拟结果进行评估,看是否符合他们的专业判断。如果专家认为模拟结果不合理,可以和他们一起分析原因,找出问题所在,并进行修正。另外,可以考虑采用一些敏感性分析的方法,看看哪些因素对模拟结果影响最大,从而有针对性地进行改进。

评估社会模拟的质量和可信度,我认为要从多个维度入手。首先是数据,模拟所用的数据是否全面、准确、高质量,直接影响模拟结果。其次是模型,模型的设计是否合理,是否能够捕捉到现实世界的关键特征和规律。再次是验证,可以将模拟结果与历史数据进行对比,看是否能够重现历史事件和趋势。如果模拟结果与现实出现偏差,可以尝试调整模型参数、增加新的数据维度、或者改进模型算法,不断迭代优化。

谢邀,人在实验室刚下无人车。我觉着除了情感啊,动机啊这些虚无缥缈的东西,还有一个很大的问题是「常识」。AI缺的不是大数据,是common sense!人类从小到大,生活经验积累了很多默认的常识,比如「火是烫的」、「猫是宠物」,这些东西AI现在还是很难理解。你要让它模拟一个真实的人,它可能做出一些非常反常识的事情。这个短期内我觉得挺难突破的,只能靠不断地喂数据,让它慢慢学习,但是效果怎么样就不好说了。

这个问题很有意思!我的想法是,不能追求完全的精度,否则计算成本会高到无法接受。可以考虑采用分层抽样的方法,先将全球人口按照地理位置、经济水平、文化背景等因素进行分层,然后在每一层中抽取一部分人进行精细化模拟,剩下的人口则进行粗略的统计建模。同时,可以利用云计算平台的弹性计算能力,根据模拟的需要动态调整计算资源。另外,还可以采用一些并行计算和分布式计算技术,提高模拟的效率。

楼上说得对,完全精细化肯定不现实。我的思路是借鉴游戏里的LOD(Level of Detail)技术,远距离的人群用简单的模型模拟,近距离的人群用更精细的模型。然后,可以关注一些关键事件和节点,比如自然灾害、疫情爆发、政策调整等等,在这些时间点上提高模拟的精度。另外,可以考虑和现实世界的数据进行联动,比如利用社交媒体的数据来校准模拟的结果,提高模拟的真实性。

嗯,我觉得最大的挑战还是AI对人类情感和动机的理解不够深入。现在很多模型都是基于大量数据训练出来的,只能学到一些表层的行为模式,很难真正理解人类行为背后的原因。比如,AI可以模拟出一个人在难过时会哭,但它没法理解这个人为什么难过,以及这种难过会如何影响他接下来的行为。数据方面,我觉得我们需要更多关于人类情感、心理、社会互动等方面的数据,而且这些数据最好是多模态的,包括文本、语音、图像、视频等等。技术上,可能需要结合认知科学、心理学等领域的知识,开发更具解释性和推理能力的AI模型。