复旦团队发布自进化通用智能体GenericAgent:学会发朋友圈并与人互动,代码极简且易于部署

复旦A3实验室发布自进化通用智能体GenericAgent,具备自学习、高执行、易迁移等特性,能发朋友圈、接管浏览器,已开源。

原文标题:一个Agent,发出了「人生」第一条朋友圈

原文作者:机器之心

冷月清谈:

复旦大学A3实验室(联合深圳夸夸菁领科技有限公司)发布了新一代通用智能体GenericAgent。与传统智能体不同,GenericAgent具备自组织、自学习、自进化的特性,能够通过与环境的互动不断成长,甚至像人类一样整理记忆、适应新任务。其核心优势在于:

* **极简架构**:代码量极少,易于理解和部署,降低了开发门槛。
* **极强执行能力**:能够像八爪鱼一样灵活使用各种工具,甚至现场“制造”工具解决问题;可以直接接管用户正在使用的浏览器,实现人机接力。
* **极致迁移**:不依赖特定模型和硬件,可以在各种平台运行,并且能够复用已学习的技能,降低智能成本。

GenericAgent的出现,代表着AGI发展的一种可能形态,它不仅是一个工具,更像是一个拥有“生命感”的数字生命,能够在用户的使用和调教下快速学习与成长。该项目已开源

怜星夜思:

1、GenericAgent 这种Agent可以直接接管浏览器,会不会有安全和隐私风险?如果被恶意利用,会造成什么影响?
2、文章提到GenericAgent可以通过"Fork"模式复制自己,选取多样策略解决问题,这是否意味着Agent可以自主进化出超出人类控制的能力?这种自主进化会带来哪些潜在风险?
3、GenericAgent目前主要依赖于代码运行、文件操作、浏览器控制等原子工具,如果未来出现更高级的工具或平台,GenericAgent的架构是否需要进行重大调整?它是否能够适应未来的技术发展?

原文内容

图片
机器之心编辑部

最近,复旦大学肖仰华教授的朋友圈引起了热议,其在研发测试的 AI 智能体通过自主学习学会了操作微信,在朋友圈发消息并与其好友在评论区自主互动。面对自然的互动,不少好友甚至开始要求 “证明你真的是肖老师,而不是他的 AI”。



这种 “分不清真人与 AI” 的错觉,源于 A3 实验室(Advantage AI Agent 实验室,由深圳夸夸菁领科技有限公司与复旦大学知识工场实验室联合成立的科研团队)研发的新型智能体:GenericAgent


它不再是安装繁复、上限受限、难以迁移的传统智能体,而是下一代自组织、自学习、自进化的通用智能体,是一个拥有 “生命感”,能够在用户使用调教下快速学习与成长的数字生命。本系统自 2026 年 1 月 11 日已经开源(https://github.com/lsdefine/pc-agent-loop)。


01 自学习、自进化:AGI 的可能形态


达到 AGI 水平的智能体不应只能在预设好的脚本与工作流下执行,而是能在环境的碰撞与探索中不断学习生长,理解并交互各种复杂环境(比如社交平台),学习解决问题的有效策略,并能形成经验沉淀,进而演变成为解决问题的专家能手,演变成为善解人意的贴心助手。这种自进化特性体现在三个维度:


  • 自组织记忆:拒绝信息的简单平铺。它拥有记忆分层组织、持续精炼功能,有效提升记忆检索效率和交互稳定性,甚至能在 “过夜” 时自主整理杂乱的记忆,确保长期运行效率。(插图:记忆的组织架构)



  • 自适应学习: 具备极强的环境适应性,在交互过程中会自己记住合理的步骤、策略,只会越来越 “聪明”。


一回生,两回熟


  • 自主成长进步: 遇到新问题时,它会通过 “Fork” 模式尝试直接复制自己,选取多样策略,用更好的策略更新自己。在闲置时间,“探索模式” 可以自己培养未知能力,持续拓展已有能力边界。


图片

智能体自主行为分布报告,它甚至在自主行动阶段自己在网上冲浪


实现这种 “自进化” 的背后,仅仅依赖于三个简单原则:极简架构、极强执行、极致迁移。


02 极简架构:用极致工程架构实现便捷落地


极简特点体现在:“极简架构、极低开销、极简部署” 这三个角度。


  • 极简架构: 代码仅 3000 多行(核心模块仅数百行),实现了传统架构 50 多万行代码才能具备的能力,任何开发者都能轻易读懂。


> 代码量即上下文优势:全代码 ≈ 8000 tokens,占 200K 上下文的 4%。这意味着 LLM 每轮对话都能全量理解自身源码,自己就是最好的文档、社区和工程化工具。传统项目的文档 / 社区 / 测试套件是大代码库的 "生存必需品",不是优势。


  • 极低开销:团队的核心理念是 “信息密度越大,效果越好” 。


  • 通过记忆的分层索引和按需加载(用哪层读哪层),大幅压缩 System Prompt,极大地节省了 Token 开销。

  • 全部特殊 prompt + 记忆核心 加起来没别人一个 AGENTS.md 大

  • 绝不重复传输,一半的代码逻辑都在确保 “ context 中不放任何垃圾信息”,比如重复的技能定义。


  • 极简部署:从此告别智能体还要付费指导安装的窘境,有网就能装!只要有 Python+Requests 环境就能运行,真正实现了 “只要有电的地方就能进化”。


03 极强执行能力:八爪鱼般的触达与使用工具的能力


如果说自进化是 GenericAgent 的灵魂,那么 “八爪鱼” 式的工具控制力就是它强壮的触角,以保证其出色的任务完成能力。它不仅能使用工具,更能像八爪鱼一样深入系统中的每个工具,打破组合泛化的天花板。更能像八爪鱼的身体一般具有韧劲,适应不同复杂环境的交互,即便迷宫一般的软件系统也能习得其交互策略。


  • 原子工具撬动数字世界: 团队拒绝给模型提供过于臃肿的选项,仅通过 code_run(执行任意代码)、file_read/write(文件操作)、web_scan/execute_js(浏览器控制)等 9 个原子工具,便能操控整个数字世界( PC 与网络世界)。


  • 现场 “制造” 工具: 当现有工具不足以解决问题时,GenericAgent 会开启探索模式:现场安装 Python 包、现场编写脚本、现场验证方案。


现场搓工具


  • 降维打击的浏览器策略: 不同于传统方案需开启全新的、未登录的浏览器实例,它通过 JS 插件直接接管你正在使用的浏览器。

  • 优势: 无需重新登录 OA 或企业微信,它能直接在你的账号权限下内容查找、表格填写、附件上传、资源下载等繁琐流程,实现真正的 “人机接力”。


图片

接管你的浏览器


04 极致的迁移:你的智能体,随你走


GenericAgent 的设计初衷就是打破软硬件的藩篱,让智能不再被禁锢在某一个特定的 “黑盒” 里。


  • 基座模型的上游: 它不挑底座模型。无论是 Claude、Gemini 还是 Kimi ,在 GenericAgent 的架构加持下,底座的能力依赖都可以被缩小,确保输出质量稳定可靠。


切换基础模型毫无压力


  • 极致低廉的硬件门槛: 只要有电、有网、有 Python 环境,只要任意一台普通 PC 与手机,它就能跑起来。无论你在 Windows、Mac 还是 Android 手机上,都能拥有同样的进化体验。


图片

可以用手机操控


图片

agent 用手机点奶茶


也可以操控手机


  • 极致技能复用: 智能体在某台机器上习得的复杂技能可以被提炼成记忆并直接移植。这意味着一个人的调教成果,可以让千万人直接享用,极大地降低了全社会的智能成本。


图片

新的模型(kimi),新的 Agent,从未做过发送消息的任务,注入 wechat_send_sop 后迅速掌握在微信中发消息的技能


GenericAgent 只是一个开始。想看它在你的手机上 “偷偷” 点外卖或整理记忆吗?


(注:本文案所有动图均由智能体自主生成)


👉 [关注 A3 实验室,共同见证自进化智能的诞生]


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


这“偷偷”两字用得妙啊!我觉得这种“偷偷”执行任务的方式,有利有弊,关键在于如何把握。如果是在用户知情并授权的前提下,让智能体在后台默默工作,提高效率,那当然是好事。但如果智能体未经允许就擅自行动,侵犯了用户的知情权和控制权,那就是大问题了!

在人机协作中,智能体的透明度和可控性至关重要。透明度让用户了解智能体在做什么、为什么这样做,从而建立信任。可控性让用户能够随时干预智能体的行为,防止出现意外情况。如果一个智能体像个黑盒子一样,用户完全不知道它在想什么、做什么,那谁敢用啊? 这让我想到了图灵测试,AI更应该注重与人交互时表现出的透明度。

自主学习和进化听起来很厉害,但是如果学习的数据或者环境本身就存在偏见,那AI学到的东西会不会也变得有偏见?这可能导致歧视或者不公平现象。所以,数据和环境的质量非常重要。

现场制造工具,可以看作是 AI 自主学习和适应环境的一种高级表现。它能够在遇到未知问题时,通过分析、推理和试错,找到解决方案并将其转化为可执行的代码。这有点像人类的工程师,能够根据具体情况设计并制造工具。但是,AI 的优势在于速度和精度,它可以更快地分析大量数据,并找到最优方案。

代码量少意味着更容易理解和维护,也更容易进行二次开发和定制。这就像搭积木一样,如果积木块越简单,我们就越容易搭建出各种各样的模型。对于智能体来说,极简架构可以降低开发门槛,让更多的开发者参与进来,共同推动智能体技术的发展。

从技术角度看,我觉得落地最大的阻碍还是伦理问题。AI如果过于强大,会不会对人类造成威胁?谁来监管这些AI的行为?这些问题不解决好,再好的技术也难以推广。

从隐私角度来说,即使Agent本身是安全的,但它收集的用户数据也可能被滥用。比如,被用来进行精准广告推送,或者被用于用户画像分析。这都可能侵犯用户的隐私权。

楼上说的有道理!感觉就像把家门钥匙交给了别人一样,信任是基础。不过,技术上应该也有一些防范措施,比如沙盒机制,限制Agent的活动范围;再比如,使用加密技术保护敏感数据。但最关键的还是开发者要负责任,不能为了追求功能而忽视安全。用户自己也要提高安全意识,谨慎使用这类Agent,定期检查权限设置。

我觉得GenericAgent的极简架构本身就是一种优势,因为它足够灵活,可以很容易地扩展新的工具和平台。只要新的工具或平台提供了相应的API接口,GenericAgent就可以通过代码运行等原子工具进行调用。当然,随着技术的发展,GenericAgent可能需要进行一些调整,但核心架构应该可以保持不变。关键在于保持开放性和可扩展性,能够不断学习和适应新的技术环境。

架构的适应性很重要,但更重要的是Agent的学习能力。如果Agent能够像人类一样快速学习和掌握新的工具,那么即使架构不做重大调整,也能适应未来的技术发展。所以,应该把更多的精力放在提升Agent的学习能力上,比如通过强化学习、迁移学习等技术,让Agent能够更快地适应新的环境。

我比较关注“原子工具”这个概念。有点像搭积木,只要原子工具足够强大和灵活,就能组合出各种复杂的功能。所以,与其担心Agent是否能够适应未来的技术发展,不如思考如何构建更强大、更通用的原子工具,这才是解决问题的根本。

我觉得自主进化是必然趋势,关键在于如何引导和约束。可以考虑引入伦理约束机制,让Agent在进化过程中始终遵循人类的价值观。另外,还可以建立一套监控系统,实时 tracking Agent的行为,及时发现和纠正偏差。总之,既要拥抱技术进步,也要防范潜在风险,在发展和安全之间找到平衡。

这确实是个值得关注的问题。直接接管浏览器意味着Agent可以访问你在浏览器中登录的所有服务,包括邮箱、社交媒体、银行账户等等。如果Agent本身存在漏洞,或者被黑客控制,你的信息安全将面临严重威胁。例如,恶意Agent可能会窃取你的Cookie,冒充你进行非法操作,或者泄露你的个人隐私。所以,在享受便利性的同时,必须高度重视安全问题,比如对Agent的权限进行严格限制,并及时更新和修复漏洞。

从社科人文角度来“阴谋论”一下,如果这种Agent被滥用,比如被某些机构用来大规模监控用户行为、操纵舆论,那后果不堪设想。细思极恐……