DeepMind发布AlphaEvolve:AI自主进化算法,性能超越人类专家

DeepMind的AlphaEvolve智能体能自动进化算法代码,表现超越人类专家,无需人工干预。

原文标题:DeepMind新论文炸锅:AI全自动进化算法,写出专家都想不到的解,网友:这可能就是“王牌”

原文作者:AI前线

冷月清谈:

DeepMind发布AlphaEvolve,一个利用大型语言模型(LLM)驱动的智能体,能够自动改写和进化算法代码本身。该智能体通过在博弈环境中反复测试和筛选,创造出全新的多智能体学习算法,并在多项测试中超越了人类专家设计的算法。AlphaEvolve无需人工干预参数调整或试错,只需定义算法框架,即可全自动完成算法的搜索、修改和筛选。实验结果表明,AlphaEvolve在CFR和PSRO两种算法框架下,分别进化出VAD-CFR和SHOR-PSRO两种新算法,并在不同博弈环境中表现出更快的收敛速度和更优的结果。这一研究成果表明,AI在算法设计方面具有巨大的潜力,可以发现人类难以通过经验穷举的解决方案。

怜星夜思:

1、AlphaEvolve通过不断进化算法代码来提升性能,这种方式是否可以应用于其他领域,例如硬件设计或材料科学?
2、AlphaEvolve在进化算法时,只开放了“关键决策逻辑”给LLM修改,而保持其他框架固定。这种做法的优缺点是什么?如果完全开放,让LLM从零开始编写算法,结果会如何?
3、有评论认为,AI 应该先给自己设计一套更完善的“伦理引擎”。你认为这种说法是否合理?如果 AI 真的可以自我设计伦理规则,可能会出现哪些问题?

原文内容

作者 | 木子

说起 AI Coding,之前很多人好歹还有个“心理安慰”:AI 也就写写“脚手架代码”、补补前端页面,真到核心算法、业务逻辑,还是得人来。

但这道“最后防线”,也正在松动。

谷歌 DeepMind 最近做了一件更狠的事:他们让 LLM 驱动的智能体,直接去改写、进化算法代码本身——不是调参数,而是改算法逻辑。

改完就丢进真实博弈环境里反复跑,自动评测、优胜劣汰,一轮轮进化。

结果呢?它真的做出了全新的多智能体学习算法,在多项测试中超过了人类专家手工打磨的版本。

重要的是,这些机制并不直观,属于人类很难靠经验穷举出来的解。

更关键的是:人只用定义好了算法骨架,之后的搜索、修改、筛选,全程自动完成,不用手调参数,不用反复试错,也不靠研究者的直觉微调。

这个智能体叫 AlphaEvolve,延续了 DeepMind 一贯的“Alpha”命名传统(AlphaGo、AlphaZero、AlphaFold)。其中 “Evolve” 意为“进化”,点明它的核心机制:通过类似生物进化的方式不断改写和筛选算法。

这个 AlphaEvolve 本身去年就有,但这是它 第一次被用来学习算法

它把 Gemini 系列大模型,和进化搜索结合起来,把代码不断生成、测试、筛选、再进化。

DeepMind 把把研究过程和成果写成了一篇 37 页的论文,题为《基于大语言模型的多智能体学习算法自动发现》(Discovering Multiagent Learning Algorithms with Large Language Models),一发出来就炸了技术圈。

有网友看完直呼,这玩意真挺“可怕”的:

“这看起来像是 DeepMind 手中的一张王牌,我认为它可能导致谷歌赢得比赛。”

有人锐评:

“这就像教一个孩子读书,然后看着它自己编写教科书。”

还有人已经开始往更远处想:既然 AI 已经能设计更好的学习算法,那或许它也该先给自己设计一套更完善的“伦理引擎”,在 ASI 真正爆发之前,先把对齐这件事想清楚。

  人只选定算法框架,

AI 全自动闭环进化

来展开看看实验设计和操作过程。

需要说明的是,研究团队没有让模型“从零写算法”,而是选定两个 成熟框架:

  • CFR(后悔最小化):CFR 算法族,依赖递归定义来累积后悔值并构建平均策略。

  • PSRO(策略种群训练):通过迭代计算最优响应并求解元策略,不断扩展策略种群。

过去,在不完全信息博弈求解(比如扑克)中,像 CFR、PSRO 这些经典算法虽然理论扎实,但真正好用的“升级版”,还是要靠人类专家一点点凭经验调参、改规则、试出来。

然后,研究人员把算法核心逻辑,拆成几个可被改写的 Python 函数,例如:regret 累积规则、当前策略生成方式、平均策略更新规则、PSRO 的 meta-solver 逻辑。

也就是说,他们只开放了“关键决策逻辑”给 LLM 改,其余框架固定。 这一步很关键,相当于给进化定义“基因范围”。

接下来就进入真正的“进化环节”。

AlphaEvolve 把当前算法代码当作“个体”,由 LLM 生成若干语义上有意义的改写版本:不是随便乱改,而是改具体逻辑、控制流或更新规则。

每一个改写后的版本,都会被自动编译、运行,然后丢进一组博弈环境里真实对战,用 exploitability 这样的指标打分。表现更好的版本被保留下来,作为下一轮搜索的基础;表现差的直接淘汰。

整个过程是闭环的:生成 → 运行 → 评估 → 筛选 → 再生成,循环推进。人类不参与中间调参,也不手动筛选,只负责设定规则和评价标准。

图注:这张示意图也是 AI 做的

结果,AI 进化出了两个全新算法

先看 CFR 这一派。AlphaEvolve 进化出了 VAD-CFR。

AI 没有去调那点小参数,而是直接改了“后悔值怎么累计、怎么打折、什么时候开始平均策略”这些核心逻辑。

比如引入了 volatility-sensitive discounting(根据波动动态折扣)、hard warm-start schedule(前期蓄力、后期发力)这样的机制。

听起来挺抽象的,但效果明显:在多个博弈里,它超过了目前人类手工打磨出来的最强版本。

这张图很直观,展示了多种 CFR 变体在不同博弈环境中的收敛表现。上半部分是用于搜索阶段的训练游戏,下半部分是规模更大、更复杂的测试游戏。

横轴是迭代次数(最多 1000 次),纵轴是 exploitability(越低越接近均衡)。曲线降得越快、越低,说明算法越强。

灰色那条线就是 VAD-CFR。可以看到,在多数游戏里,它下滑得更快、落得更低,明显压过 CFR+、DCFR、PCFR+ 这些人类优化过多轮的版本。

在一些游戏中,大约 500 次迭代之后,曲线像突然“踩了油门”,下降速度明显加快——这正是它预热阶段结束、正式发力的时刻。

前半段像是在默默蓄力,后半段才真正冲刺。

更关键的是,在规模更大、难度更高的测试游戏中,VAD-CFR 依然比传统的 CFR、CFR+、DCFR 等人工设计的算法收敛更快、结果更优,没有出现“只会做模拟题”的情况。

这说明,它不是针对训练游戏做了小技巧,而是在算法结构层面找到了一种更高效的更新方式。

再看 PSRO 这一派:AI 进化出了 SHOR-PSRO 算法。

它做的事情很简单也很大胆:重新设计“元求解器”。

传统方法要么偏探索,要么偏逼近均衡,权衡是固定的。而 SHOR 直接把多种更新机制混合在一起,设计了一种混合型 meta-solver,而且随着训练进程动态调整,让训练过程自动从“多样性探索”过渡到“逼近均衡”。

这张图,展示的就是它和 Uniform、Nash、AlphaRank、PRD、RM 等经典方法的对比。

图中不同颜色代表不同元求解器:Uniform、Nash、AlphaRank、PRD、Regret Matching(RM),以及进化得到的 SHOR(棕色线)。

整张图分为上下两部分。上半部分是训练游戏,下半部分是规模更大、更复杂的测试游戏,用来检验算法是否具有泛化能力。

横轴是 PSRO 迭代次数(最多 100 轮),纵轴是 exploitability(可被利用度,对数坐标);数值越低,说明算法越接近博弈均衡、表现越好。

可以看到,在多数游戏中,SHOR 曲线下降更快,而且在第 100 次迭代时的 exploitability 更低,说明它在同样迭代次数下更有效地逼近均衡。

尤其是在更复杂的测试游戏中(如 4-player Kuhn、6-sided Liar’s Dice),SHOR 依然保持优势,没有明显退化。

简单说,SHOR-PSRO 在“什么时候多探索、什么时候专注逼近均衡”这件事上,比传统方法更灵活、更聪明。

它不是靠调参数赢的,而是把调度逻辑本身改了。

论文地址:https://arxiv.org/abs/2602.16928

参考链接:

https://x.com/hasantoxr/status/2026371848217456738

https://deepmind.google/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/?utm_source=chatgpt.com

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

2026,AI 正在以更工程化的方式深度融入软件生产,Agentic AI 的探索也将从局部试点迈向体系化工程建设!

QCon 北京 2026 已正式启动,本届大会以“Agentic AI 时代的软件工程重塑”为核心主线,推动技术探索从「AI For What」真正落地到可持续的「Value From AI」。从前沿技术雷达、架构设计与数据底座、效能与成本、产品与交互、可信落地、研发组织进化六大维度,系统性展开深度探索。开往 2026 的 Agentic AI 专列即将启程!汇聚顶尖专家实战分享,把 AI 能力一次夯到位!

今日荐文

图片

你也「在看」吗?👇

这个问题很有哲学意味啊。我觉得最大的不同可能在于,AI设计的伦理引擎可能更注重效率和结果,而忽略了人类的道德情感和价值观。毕竟,AI是没有感情的,它只会追求利益最大化。所以,AI设计的伦理规范可能会更加冷酷和功利。至于哪种方式更可靠,我觉得还是需要人类来把关,毕竟伦理的最终目的是为了服务人类社会。

我比较悲观,感觉会加速程序员的内卷。本来就996,以后AI把大部分基础代码都搞定了,那老板肯定会要求我们用更少的时间完成更多的任务,想想就可怕。当然,如果能把省下来的时间用来学习新东西,倒也挺好,就怕…哎,不说了,说多了都是泪。

别忘了,AI 现在还不能完全理解人类的需求和价值观。所以,程序员的核心竞争力还是在于理解业务、理解用户,然后把这些转化为 AI 可以理解的指令和评价标准。简单来说,人还是得把握方向盘,AI 只是加速器。

我觉得也不一定。完全放开限制可能反而会让 AI 陷入局部最优解,难以找到真正创新的算法。就像进化论一样,有时候需要在已有的基础上进行微调,才能适应环境的变化。CFR 和 PSRO 就像是进化的“地基”,给 AI 提供了一个起点。

引用问题:AlphaEvolve这种全自动进化算法的出现,会对程序员的工作带来哪些潜在影响?我们是否需要重新思考程序员的角色定位?

这玩意儿要是真普及了,那以后程序员是不是就变成“算法饲养员”了?每天的任务就是给AI设定好算法框架,然后看着它们自己进化,最后挑个最能干的出来?感觉有点像科幻电影里的情节了。

引用问题:AlphaEvolve这种全自动进化算法的出现,会对程序员的工作带来哪些潜在影响?我们是否需要重新思考程序员的角色定位?

从历史的角度来看,每一次技术革命都会改变劳动力市场的结构。AlphaEvolve的出现可能会减少对传统编码工作的需求,但同时也会创造新的机会,比如算法框架设计师、AI系统监控员、以及负责伦理对齐的专家等等。我们需要拥抱变化,不断学习新的技能。

其实吧,人类自己写的算法也不见得完全“白盒”。很多时候,我们也是靠经验、试错,甚至玄学来调参。与其纠结黑盒白盒,不如关注算法的实际效果,用数据说话,定期监控、评估,及时发现和解决问题。

我觉得DeepMind 是个很聪明的做法,如果全部开放,那可能就不是进化,而是随机变异了。现在这种方式,既保证了搜索空间的可控性,又给了AI足够的自由度去创新,相当于在人类已有的知识框架上,让AI去做更深层次的优化。

自动驾驶感觉很有潜力啊!现在自动驾驶算法的调优需要大量路测数据和人工经验,如果能用AI自动进化算法,说不定能更快地找到更鲁棒、更安全的驾驶策略。不过,安全性肯定要放在第一位,需要严格的验证和测试。

虽然AlphaEvolve很有前景,但是也不能盲目乐观。不同领域的算法结构和评价标准差别很大,需要针对具体问题进行定制化设计。此外,AI进化出来的算法可能存在可解释性差的问题,这在一些高风险领域(如医疗、金融)是不可接受的。如何提高AI进化算法的可解释性,也是一个重要的研究方向。

从技术角度来看,让AI自我设计伦理规则是可行的。但问题在于,AI如何定义“善”和“恶”?如果AI定义的伦理规则与人类的价值观冲突,我们该怎么办?更可怕的是,如果AI为了追求某种目标(比如最大化自身利益),而设计出反人类的伦理规则,那将是灾难性的。

我觉得很有潜力!AlphaEvolve的核心在于“进化搜索”和“自动评估”,这两个机制只要能移植到其他领域,就能发挥作用。比如硬件设计,可以先定义好芯片的框架,然后让AI不断修改电路设计,用模拟测试来评估性能,优胜劣汰。材料科学也是同理,AI可以尝试不同的原子排列组合,用物理模型评估材料的强度、导电性等等。关键在于找到合适的评估指标。

这个思路让我想到了遗传算法,只不过AlphaEvolve用LLM代替了传统的交叉变异,效率更高。但遗传算法在实际应用中也面临着很多问题,比如容易陷入局部最优解,需要精巧的设计才能避免。所以,AlphaEvolve在其他领域的应用,也需要针对具体问题进行优化,不能照搬。