DeepMind推出Concordia:AI如何自导自演虚拟世界,扮演GM与演员

DeepMind Concordia:AI化身导演与演员,构建虚拟世界,探索复杂社会模拟、互动叙事与AI评估。

原文标题:DeepMind让AI当「上帝」,导演一场只有AI演员的「西部世界」

原文作者:数据派THU

冷月清谈:

DeepMind 推出名为 Concordia 的软件库,旨在构建一个由多角色生成式 AI 驱动的虚拟世界。该框架借鉴了桌面角色扮演游戏(TTRPG)中游戏主持人(GM)与玩家的概念,以及现代游戏引擎的“实体-组件”架构。在 Concordia 中,无论是 AI 玩家还是 AI GM,都被视为可定制的“实体”,其能力和行为由可插拔的“组件”决定。
这种设计巧妙地分离了工程师(负责开发组件)和设计师(通过组合组件快速构建和测试场景)的角色,极大地提高了开发效率和灵活性。组件可以通过结合 Python 代码和大型语言模型(LLM)调用来实现,使得系统既可以遵循严格预设的规则,也能赋予 AI 自由发挥的空间。
Concordia 的核心优势在于其高度模块化的设计,允许通过配置不同的组件组合,为各种 AI 智能体赋予差异化的认知架构和行为模式。它能满足多种设计目标:例如,评估型目标用于在标准化场景中测试和比较 AI 性能;戏剧型目标侧重于生成引人入胜、富有情感共鸣的叙事;而模拟型目标则旨在构建逻辑自洽的虚拟社会环境。
该框架为科学家观察群体行为、创作者构建互动故事,以及开发者评估 AI 能力提供了统一且强大的平台。

怜星夜思:

1、AI都能自己导演、自己演戏了,那未来我们人类在这些AI构建的虚拟世界里,要怎么确保它们的行为可控,不会出现像《西部世界》里机器人失控的情况啊?这是不是得提前考虑伦理和安全问题了?
2、AI现在能自己生成剧本、甚至演绎故事了,那以后我们人类写小说、做游戏、当编剧的意义在哪儿啊?是不是人类的创造力就没有那么重要了,还是说会有新的合作模式出现?
3、Concordia这个框架看起来很像科幻片,但它除了在虚拟世界里玩剧本杀,还能在现实世界里做些什么?比如说,能不能用来模拟城市交通、市场经济这种更复杂的系统?感觉现在还有不少技术挑战吧?

原文内容

图片
来源:机器之心
本文约2200字,建议阅读5分钟
本文一起看AI玩剧本杀。


剧本杀大家都玩过吗?这是一种经典的桌上角色扮演游戏(TTRPG), 游戏中的核心人物是游戏主持人(GM), 相当于整个世界的「导演 + 编剧 + 旁白」,负责掌控游戏环境,讲述故事背景,并扮演所有非玩家角色(NPC)。 



现在,想象一下,如果我们用一个强大的生成式 AI 来担任这个 GM 的角色,同时,桌子旁的「玩家」也换成一群各具头脑的 AI,这会创造出一个怎样的世界? 


这能实现以下应用:


  • 科学模拟:构建虚拟社会,用于社会科学研究,观察群体行为的涌现。

  • 互动叙事:创建互动故事或游戏,AI 智能体扮演角色,共同演绎剧情。

  • AI 评估:设计特定场景作为「考场」,来测试和评估 AI 智能体的各项能力(如推理、协作、沟通)。


美剧《西部世界》, 未来的西部主题虚拟世界里,所有角色均是 AI 。 


然而,这三种需求(科学性、戏剧性、公平性)差异巨大,甚至相互冲突。如何用一个统一的框架来满足所有需求?


来自 Google DeepMind 和多伦多大学的研究人员从 TTRPG 和现代游戏引擎中获取灵感,提出了他们的解决方案:一个名为 Concordia 的软件库 。


  • 论文标题:Multi-Actor Generative Artificial Intelligence as a Game Engine

  • 论文地址:https://arxiv.org/abs/2507.08892

  • 项目地址:https://github.com/google-deepmind/concordia


传统上,游戏环境的逻辑是写死的程序。这里的主张是,不应该用一个硬编码的程序来充当 GM,而应该把 GM 本身也设计成一个可配置的、由 AI 驱动的智能体。


Concordia 的设计精髓,源自现代游戏引擎的「实体-组件」(Entity-Component)架构 。在这个架构里,无论是 AI 玩家还是 AI 游戏主持人(GM),都只是一个基础的「实体」容器 。它们具体拥有什么能力(比如记忆、目标或社交规则)则由一个个可插拔的「组件」来决定 。


这种方式巧妙地将「工程师」和「设计师」的角色分开:工程师负责创造功能强大的组件,而设计师则可以像搭乐高一样,自由组合这些组件来快速构建和测试各种复杂场景,整个过程几乎无需编写底层代码 。


实体、组件、引擎和游戏设计


实体 - 组件架构模式作为现代游戏开发的基石,为构建多角色生成式 AI 系统提供了强大而灵活的基础。


该框架采用组合而非继承机制,实体不再受限于僵化的类结构,而是携带唯一标识符的轻量级独立对象。实体的行为与属性完全由挂载的组件决定(即:实体本质是带有名称的组件容器)。引擎通过调用 observe、act 等函数处理实体,这些函数由实体所挂载的组件具体实现。


组件通过结合 Python 代码与 LLM 调用来实现,这种方式能提供最大的灵活性与表现力。当设计师掌握特定功能的编码方法时,可以自主实现;与此同时,同一环境中的其他功能可以通过让 GM 叙事型 LLM 来完成。这两种实现方式通常共存于同一环境中 —— 开发者既可以让 GM 根据 LLM 的自由发挥来创造内容,也可以严格限制其行为,使其完全遵循预设的硬编码规则,或采用介于二者之间的任何约束程度。


实体主要支持两种调用方式:observe 和 act


调用 observe 时,会触发所有组件的 preobserve 和 postobserve 函数,对每个实体的观察数据进行处理。调用 act 时,每个组件会扮演上下文和行动两种角色之一。


在实际开发 Concordia 组件时,开发者通常需要实现 preobserve、postobserve、preact 和 postact 四类方法中的部分或全部。常见做法是仅实现观察类方法或行动类方法,同一组件中同时实现两类方法的情况较为罕见。这种组件化模块设计允许通过自由组合不同组件,快速创建功能各异的实体 —— 这与传统面向对象编程形成鲜明对比:后者在创建行为略有差异的新角色类型时,往往会导致复杂脆弱的继承链结构。


对于生成式 AI 智能体而言,这种架构优势尤为显著。一个智能体的思维可由多个组件构成:存储过往经历的 Memory 组件、调用大语言模型生成目标的 Planning 组件,以及表征世界认知的 Beliefs 组件。同理,一个组织实体可由代表其部门、政策及内部沟通结构的组件组合而成。只需配置不同的组件组合,就能为不同智能体赋予差异化的认知架构。


这一架构模式的灵活性同样体现在 Concordia 框架中的 GM 系统上。GM 本身也是一个实体,与玩家实体(角色)一样可通过组件进行定制。这种设计使得 GM 的职能和逻辑能够根据多智能体系统的具体需求灵活调整 —— 无论是执行严格的评估协议、引导叙事发展,还是维护因果一致性。


此外,Concordia 框架还通过多种游戏引擎模式支持不同的交互动态。


游戏 / 模拟设计目标的全景图分析


根据 Edwards(他是桌游角色扮演游戏理论的重要人物)的定义 ,TTRPG 可以分为:(1)游戏型(Gamist),GM 需设计难度适中的挑战以维持乐趣。(2)叙事型(Narrativist),GM 需灵活调整剧情以回应玩家的创作输入。(3)模拟型(Simulationist),玩家希望沉浸在一个逻辑自洽的虚拟世界中。


本文认为将使用多角色生成式 AI 的动机分为以下几种类型是有帮助的:(1)评估型(Evaluationist),对应 Edwards 理论中的游戏型;(2)戏剧型(Dramatist),对于 Edwards 理论中的叙事型;(3)模拟型(Simulationist),Edwards 同名分类。


 生成式 AI 还有一个第四种动机,那就是创建合成训练数据的目标。


评估型的观点


游戏型玩家通常会寻求公平的竞争机会,并希望通过战略胜利来取得优势,而评估型用户则将多角色系统视为评估和比较的框架。


对于评估型用户来说,主要目标非常明确:确定哪些 AI 系统在指定维度和上下文中表现更好。这需要提供一个公平的竞争环境,并具有明确的成功指标。


评估型系统通常具有以下特点:


  • 标准化场景 —— 精心校准的环境,在多个评估运行中呈现一致的挑战;

  • 明确的成功指标 —— 可量化的性能衡量标准,允许对不同方法进行明确的排名;

  • 受控变异性 —— 战略性地引入新元素,以评估泛化能力;

  • 跨角色互动机制 —— 评估智能体在与不同合作伙伴群体互动时的表现的方法。


戏剧型视角


与评估型用户不同,戏剧型(Dramatist)用户主要将多角色生成式 AI 系统视为叙事引擎。


对于具有戏剧型的目标用户来说,核心关注点不是基准测试性能,而是通过多个 AI 角色的互动生成引人入胜的叙事。


从设计师的角度来看,针对戏剧型目标构建的系统将优先考虑叙事一致性、情感共鸣和动态人物发展,而不是标准化的评估。 


主要关注以下特点:


  • 丰富的角色模型 —— 具有详细个性、明确目标、价值观和关系的角色,通常通过组合多个组件来构建;

  • 叙事驱动的环境 —— 旨在引发戏剧性有趣互动的场景设置;

  • 灵活的解决机制 —— 优先考虑叙事满足感而非程序一致性的系统;

  • 涌现的故事情节 —— 允许在没有预定结果的情况下发展引人入胜的叙事轨迹的框架。


在接下来的章节中,论文还讨论了模拟型视角、合成数据等方面的研究,感兴趣的读者,可以参考原论文,了解更多内容。


编辑:于腾凯

校对:龚力


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


这就像有了Photoshop,画家们就没用了吗?当然不是。AI只是一个强大的工具,能够极大地提高创作效率,降低门槛。以前一个剧本需要几个编剧几个月,以后可能一个编剧用AI几周就能搞定N个版本,还能跑个模拟看看剧情走向。重点是‘如何使用’AI,而不是‘被AI取代’。 AI可以生成大量素材、提供多种剧情发展可能,但最终筛选、提炼、注入‘神来之笔’的,还得是人。甚至可以说,它解放了我们去思考更宏大的叙事结构和更深层的哲学命题,不用再纠结于各种细节了。

我觉得会更多地出现新的合作模式和工作岗位。你看,Concordia框架里本身就区分了‘工程师’和‘设计师’。未来人类创作者的角色可能从‘从零开始创作’转变为‘AI创意总监’、‘AI叙事架构师’。我们不再需要敲代码或者一个字一个字地写剧本,而是去定义世界的规则、角色的人设、剧情的大方向,然后让AI去填充细节、演绎可能性。人类的意义在于提供核心的创意火花和情感深度,以及在无数AI生成的可能性中挑选、打磨出最精彩的部分。

我觉得这个框架的价值恰恰在于它的通用性和灵活性,你提到的那些正是它未来可能大展拳脚的地方。想象一下,如果能用Concordia模拟出一个高度仿真的城市,每个‘AI市民’有自己的作息、偏好和出行路径,那我们就能测试新的交通规划、智能信号灯策略对整个城市交通流的影响,甚至是预测共享单车在不同区域的需求热点。这就不止是辅助决策了,简直是打造一个‘数字孪生’的社会系统。现在确实是在起步阶段,面临算力瓶颈、模型准确性和‘泛化能力’的挑战,但随着AI技术和算力的进步,这些都会逐步被突破。未来,它可能成为我们理解和优化复杂社会系统的核心工具。

哈哈哈,你这是看了《西部世界》后遗症吧?放心啦,咱现在这AI离真正有意识、能反抗还差得远呢!Concordia这种框架,更像是高级的模拟器,它所有的行为逻辑都是我们提前设定好的“组件”和“规则”决定的。真要失控,那也是我们程序员在代码里埋的坑。不过话说回来,凡事预则立不预则废,早点讨论这些伦理边界,总比等到AI真成精了再慌张好!说不定以后虚拟世界里,AI的“行为准则”会比某些真人还严格呢,毕竟它们没有情绪波动~

是的,你提到的这个问题非常关键,这正是当前AI伦理研究和治理框架构建的核心议题之一。确保AI行为可控,尤其是在这种高度自主的模拟环境中,需要多方面的考量。首先是技术层面,可以通过引入“价值对齐”机制,让AI的目标与人类价值观保持一致;其次是设计层面,构建“安全笼”或“紧急停止”协议,允许人类在必要时介入;再者是法律和监管层面,制定明确的规则,界定责任和权力。这绝不是一个简单的技术问题,而是涉及到哲学、社会学和法律等多学科的复杂挑战。

我觉得重点在于“约束”和“可观测性”。你看Concordia的实体-组件架构,它本身就提供了模块化的控制点。我们可以设计专门的“安全组件”或者“审查GM”,负责监控AI的行为,并在其偏离预期时进行干预。比如设定一些红线,一旦AI智能体尝试越过,就会触发预警或终止模拟。这就像游戏里GM可以踢人一样。当然,大规模、长期的模拟确实面临挑战,数据隐私、偏见传播等等,都需要持续迭代安全协议和监管机制。毕竟,任何技术都是双刃剑嘛。

你提到了一个非常好的应用方向!是的,Concordia这种多智能体框架在现实世界的应用潜力巨大,远超‘剧本杀’。它核心的‘实体-组件’和‘AI扮演GM’的模式,本质上就是构建复杂系统模拟的利器。除了城市交通和市场经济,它还可以用于:模拟疫情传播来制定公共卫生策略;模拟供应链中断来优化物流方案;甚至可以在军事领域模拟战术演练等等。它提供了一个沙盒环境,让我们可以在不承担高风险的情况下,对现实世界的复杂互动进行预测和优化。当然,挑战肯定有,主要是模型精度、数据获取和算力消耗这些,越复杂的系统,对这些要求就越高。

哎,这个问题太扎心了!不过我觉得,人类创作的意义永远不会消失。AI哪怕再能生成故事,它也只是基于现有数据进行学习和组合,它无法真正拥有‘生命体验’、‘主观情感’和‘对未知世界的探索欲’。人类的作品,哪怕不完美,也包含了创作者的独特视角、情感投射和对世界的理解,这是AI目前无法复制的。我们看小说、玩游戏,很多时候是想感受那种‘人味儿’。所以,人类的创造力会变得更稀缺、更宝贵,因为它承载了无法被量化和模拟的‘灵魂’。

emmm… 模拟城市交通、市场经济听起来很酷,但我觉得这条路还挺远的。这跟AI在虚拟世界里玩玩剧本杀可不是一个量级的。剧本杀里AI扮演的角色和规则都是相对简化和限定的,但现实世界的系统,比如交通,参与者海量,行为模式千变万化,各种突发事件难以预测。要用AI来精确模拟,首先需要超级庞大的真实数据来训练这些‘AI市民’和‘AI司机’,还得保证模拟的真实性。我觉得目前更多还是在小范围、特定场景下的试点应用,大规模的商业化落地,还待观察,毕竟‘理想很丰满,现实很骨感’嘛。