SocioVerse:复旦大学等机构开源百万级真实用户池,赋能社会模拟研究

复旦大学等开源SocioVerse社会模拟世界模型,含百万级真实用户池,着重解决社会模拟中与现实“对齐”难题,赋能社会科学研究。

原文标题:社会模拟的世界模型SocioVerse:复旦、创智学院等开源100万真实用户池,助力计算社会科学的交叉研究

原文作者:机器之心

冷月清谈:

复旦大学联合多家机构推出了社会模拟世界模型SocioVerse,旨在通过构建与现实世界对齐的模拟环境,解决当前社会模拟研究中存在的泛化能力不足和可扩展性不佳的问题。SocioVerse的核心在于“对齐”理念,从环境、用户、交互机制和行为模式四个维度入手,构建包含社会环境、用户引擎、场景引擎和行为引擎的框架,并开源了包含100万真实用户池,支持高精度、系统性、可泛化的大规模社会模拟。该模型在新闻热点传播、社会经济调查等场景中表现出良好的对齐效果,并提供在线社会模拟仿真平台,旨在助力计算社会科学的交叉研究,该研究着重强调了环境对齐、用户对齐、交互机制对齐以及行为模式对齐这四个关键的对齐维度,并通过实验验证了SocioVerse在模拟大规模群体行为方面的有效性。

怜星夜思:

1、SocioVerse强调与现实世界的“对齐”,那么在实际应用中,你认为哪个维度的对齐(环境、用户、互动机制、行为模式)最重要,为什么?
2、文章提到了SocioVerse在新闻热点传播和社会经济调查中的应用,你觉得社会模拟还能在哪些领域发挥作用?有没有什么潜在的伦理问题需要关注?
3、SocioVerse开源了100万真实用户池,这对研究人员来说是福音。如果你是一位社会科学研究者,你会如何利用这个用户池进行研究?

原文内容


复旦大学跨学科团队联合上海创智学院、罗切斯特大学、小红书提出社会模拟的世界模型 SocioVerse,开源 100 万真实用户池,助力计算社会科学的交叉研究


随着大语言模型角色扮演能力的提升,越来越多的学者将大语言模型引入到社会科学研究中,在模拟社会调查、评估传播效果等场景都取得了正面的结果。现有的研究存在两个局限性:(1)泛化能力不足。当前研究聚焦在某个特定场景 / 任务,方法和结论难以推广和复用。(2)可扩展性不佳。当前的研究往往以大语言模型为中心设计模拟过程,缺乏系统性的视角,难以扩展到更复杂场景。


大规模社会模拟通过构建现实世界的参照,达到建模目标群体的行为模式、预测群体事件的演化趋势、辅助现实重大决策的目的。社会模拟研究的核心问题在于模拟过程如何做到与现实世界的 “对齐”。基于此,复旦大学交叉学科团队联合上海创智学院、罗切斯特大学、小红书提出了一种面向社会模拟的世界模型 SocioVerse,首次提出从环境、目标用户、交互机制和行为模式四个维度的 “对齐” 理念,并设计了包含社会环境、用户引擎、场景引擎和行为引擎的对齐框架,构建了 1000 万真实人口池,以实现高精度、系统性、可泛化的大规模社会模拟。


SocioVerse 在新闻热点传播、社会经济调查等三个场景中展现出高精度的对齐效果。项目开源 100 万英文社交媒体平台的用户池,推出众生・SocioVerse 社会调查模拟平台,提供在线社会模拟仿真,助力交叉学科研究。



  • 众生・SocioVerse 项目地址:http://www.fudan-disc.com/socioverse/

  • 论文:https://arxiv.org/abs/2504.10157

  • 评测仓库:https://github.com/FudanDISC/SocioVerse

  • 用户池地址:https://huggingface.co/datasets/Lishi0905/SocioVerse


社会模拟的关键挑战:对齐


为了理解人类在社会情境中的行为,传统方法通常采用如问卷、访谈和行为观察等方式,但是面临着高成本、小样本和伦理问题等限制。因此,社会模拟作为替代手段逐渐兴起,运用数学建模、大数据分析等方法,通过构建智能体模拟观察个体决策如何汇聚成群体行为。随着大语言模型的发展,智能体的推理与互动能力显著增强,从而能够构建更加真实和复杂的社会模拟。然而,现有方法在与真实世界对齐时仍面临四个关键挑战:


1. 环境对齐:如何使模拟环境与实时发生的现实世界事件同步。

2. 用户对齐:如何精准对齐模拟智能体与目标用户的特征与分布。

3. 互动机制对齐:如何设计统一、可扩展的互动方式来匹配现实中的交流模式。

4. 行为模式对齐:如何确保智能体生成的行为能真实反映用户群体的多样性和偏好。


为此,我们提出了 SocioVerse,一个由大模型智能体驱动的大规模社会模拟世界模型,具备四个对齐模块,并配备一个包含一千万真实用户的池。我们在新闻、经济等三大场景中验证其有效性,结果显示 SocioVerse 能够高效、可信地模拟大规模群体行为。


SocioVerse 框架



SocioVerse 框架示意图,包含四个强大的对齐组件。社会环境为模拟提供了事实的上下文信息。在模拟过程中,行为引擎接受来自用户引擎和场景引擎的用户画像信息和模拟场景设定,结合社会环境提供的信息生成针对查询语句的模拟结果。


SocioVerse 的整体框架包括四部分:社会环境模块、用户引擎、场景引擎、行为引擎


1. 社会环境模块


作用:为模拟注入最新事件、社会统计与偏好内容,使模拟环境与现实环境对齐,帮助智能体对当前社会背景作出合理反应。


组件:


  • Updated Events(事件更新):构建带时间戳的新闻事件库、事件词条库,供 LLMs 检索与引用,实现事件轨迹追踪与情境还原。

  • Social Statistics(社会统计):提供结构化数据,如人口分布、城市结构与社会习俗,使智能体行为更符合所在的群体特征。

  • Preference Content(偏好内容):通过推荐系统为不同智能体推送兴趣相关内容,提升行为生成的多样性和个性化。


2. 用户引擎


作用:根据真实用户采样模拟样本,构建复杂的目标用户画像,确保模拟智能体的人群特征与现实分布对齐。


组件:


  • User Pools(用户池):使用来自 X 和 Rednote 等平台的历史发言构成 1000 万用户的大规模池。

  • User Labels(用户标签):结合了可标注的硬标签(如性别、年龄)与可训练的软表征向量。其中,硬标签利用多个 LLM 进行初步标注,人工校验后训练分类器,实现 15 类人口属性的自动推断(如性格等)。


3. 场景引擎


作用:将模拟场景与真实场景对齐,根据任务类型设计相应的交互结构,并按人口分布将模拟推广至大规模群体。


组件:


  • Questionnaire(问卷):1 对多的单轮结构,用于收集大规模样本对某一话题的观点意见(如民意调查)。

  • In-depth Interview(深入访谈):1 对 1 多轮交互,便于挖掘受访者的态度动机,适用于用户体验与心理研究。

  • Behavior Experiment(行为实验):1 对多或多对多结构,在控制条件下观测个体与群体的决策行为与社会偏差。

  • Social Media Interaction(社交互动):多对多场景下构建多智能体的动态发帖与评论,模拟信息扩散与网络影响等。


4. 行为引擎


作用:在模拟过程中结合用户画像、场景结构与社会背景,驱动智能体生成合理的模拟行为,确保其行为模式与真实用户群体对齐。


组件:


  • LLM Agents(大模型智能体):包括三类(1)通用型 LLM:如 GPT 或 Qwen,通过提示对齐用户画像;(2)专家型 LLM:为特定领域微调,用于生成专业行为;(3)领域 LLM:应对复杂任务或知识密集型模拟。

  • Traditional ABM(传统建模智能体):基于规则或数学模型,通过启发式或理论函数实现交互,适合低影响力的边缘用户建模,具有效率优势。


千万真实用户池


1. 数据收集


用户池的数据主要来自多个社交媒体平台,如 X(原 Twitter) 和 Rednote(小红书),涵盖不同语言、文化与年龄层的用户群体。为了保障用户隐私,数据仅包含公开可见的内容,如文本、互动行为(点赞、评论、转发)等。在构建过程中,通过设定文本重复率阈值,可以识别并剔除机器人与广告账户,从源头保障数据质量。按用户索引并清洗后的数据构成如下:



2. 人口统计学标注


由于用户的人口统计信息无法直接获取,我们设计了一个人口属性标注系统,用于推断和标注用户特征。该流程首先由多个大语言模型作为初始标注器,对用户在多个人口统计维度上进行分类。随后,人类标注员对 LLM 生成的标签进行评估与修正,从而确保用户标签数据集的可靠性。经过人工审核后的数据集将用于训练人口属性分类器,从而以成本较低的方式支持大规模的自动标注。具体而言,我们在 15 个人口统计维度上对用户进行了标注,包括:年龄、性别、职业、收入、教育水平、居住类型、地区、就业状态、婚姻状况等以及兴趣爱好。每一项属性均由对应子数据集训练的专用分类器进行推断。在小红书和 X 数据上经过如上标注流程后,各个标注模型与人类标注的一致性如下表所示:



在标注器训练部分,我们采用多个大语言模型(LLM)之间多数投票的标签结果来构建训练数据集。鉴于不同平台所使用的主流语言存在差异,我们在 X 平台的数据上使用 LongFormer 模型,在 Rednote 平台的数据上使用 Bert-base-chinese 模型。最终标注器在测试集的各个人口统计学特征中的标注表现如下:



场景模拟实验


我们在不同场景模拟实验中测试了 SocioVerse 的性能表现。场景实验均为基于问卷的单轮调查模拟。


  • 热点新闻反馈模拟:从社交媒体中采样对科技领域感兴趣的目标人群,模拟 1w 用户对 ChatGPT(生成式人工智能)的问世的观点态度。

  • 中国国民经济调查:从中国 31 个省级行政区(除港澳台外)中按人口比例采样,模拟共 1.6w 智能体日常各项消费支出的水平。


整体实验结果:SocioVerse 可以支持多样且精确的大规模社会模拟



  • 热点新闻反馈:各模型对公众态度的模拟与真实用户群体表现一致。Qwen2.5-72b 在 KL 散度和 NRMSE 两个评价维度上与真实用户的态度一致性分别达到 83% 和 70%,能较准确捕捉传播效果与观点分布。

  • 国民经济调查:所有模型在模拟各地区消费支出时均接近真实统计数据,尤其在发达地区表现更佳。Llama3-70b 在该场景中表现最强,在所有地区和发达地区与真实居民的消费一致性分别达到 69% 和 76%,说明 SocioVerse 能有效模拟用户在经济决策中的行为模式,特别是在发达地区。


拓展分析:热点新闻反馈模拟中的群体偏好与观点能被有效还原



在 ChatGPT 问世事件的反馈模拟中,我们将观点问卷量化为六个维度的 1–5 分 Likert 量表,并将模拟结果与真实用户群体逐项比对。结果表明,多数模型在六个维度(公众认知 PC, 感知风险 PR, 感知利益 PB, 信任度 TR, 公平性 FA, 公众接受度 PA)上均与真实用户高度一致。同时,也需要注意,所有模型的模拟回答整体偏保守,暗示着模拟中可能存在一定由于 LLM 引入的偏差风险。


拓展分析:模型在经济调查中对不同领域的模拟表现差异显著


在全国经济调查中,模型需预测共八项月度消费支出。结果表明:所有模型在大多数维度上与真实数据高度一致,尤其在 “日用品” 维度表现最优。在 “住房支出” 这一复杂领域,各模型误差普遍偏大,说明 LLM 对高复杂经济行为的模拟仍具挑战。Llama3-70b 在整体表现上优于其他模型,说明其在高稳定性场景中更具优势。


SocioVerse 大规模社会调查模拟平台


SocioVerse 大规模社会调查模拟平台基于大模型智能体与千万级真实人群数据库,突破传统调研的时空与成本限制,支持复杂社会现象的动态推演,帮助学术研究、商业分析等领域用户快速获取可解释的群体行为洞察。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我会关注不同社会群体的信息茧房效应。这个数据集包含了不同平台的用户,可以对比不同平台的用户在信息获取上的差异,看看是否存在信息过滤和选择性接收的情况,以及这种现象对社会共识的影响。

我个人觉得行为模式对齐是最难的,也最重要。环境和用户数据相对容易获取,互动机制可以通过设计来控制,但要真实模拟用户的行为模式,需要深入理解心理学、社会学等知识,而且用户的行为是会变化的,所以这一块的挑战最大。

游戏开发!绝对是游戏开发!现在很多开放世界游戏都强调沉浸感,如果能用SocioVerse模拟NPC的行为模式和社会关系,那游戏体验绝对上一个台阶。伦理问题嘛,我觉得最大的风险是“缸中之脑”,模拟太真实可能会影响现实生活。

我会尝试用这个用户池来研究网络舆情的形成和演变机制。比如,分析特定事件在不同用户群体中的传播路径和情感倾向,看看能不能找到一些规律性的东西。当然,前提是要做好数据脱敏和伦理审查。

如果我是社会科学研究者,我就用它来研究社会资本的流动。看看不同背景的用户在社交媒体上的互动模式,能不能发现社会关系、资源分配和社会地位之间的关联。感觉能挖出很多有意思的pattern。

从系统工程的角度来说,我觉得环境对齐是基础。没有一个可靠、同步的环境,用户、交互和行为都成了空中楼阁。就好比你模拟一个地震后的社会反应,如果环境数据(震级、影响范围等)不对,那后面的一切都白搭。

除了文章提到的,我觉得在公共政策制定方面很有潜力。比如,模拟不同政策对社会的影响,可以帮助政府更好地决策。另外,在教育领域,模拟不同的教学方法对学生的影响,也很有价值。伦理方面,要特别注意数据隐私和防止被用于操纵舆论。

社会模拟在城市规划、交通管理等方面都能发挥作用。比如,模拟交通流量,优化路线设计;模拟人口流动,优化公共资源配置。伦理问题方面,最大的担忧是算法歧视,如果模型本身存在偏见,那模拟结果可能会加剧社会不公。

我觉得用户对齐是最重要的。环境、机制、行为模式,最终都是为了服务于用户。如果用户画像偏差太大,那模拟出来的结果肯定失真。就像做市场调研,目标用户搞错了,后面的分析就全错了。