Grok 4.20 Beta版发布：马斯克携多智能体强势来袭

almosthuman2014 · 2026 年2 月 26 日 11:53

马斯克发布Grok 4.20 Beta版，采用多智能体架构，大幅降低AI幻觉，并在多项评测中表现亮眼。实测代码生成、信息检索能力强大，依然“毒舌”。

原文标题：马斯克：Grok今日归来！

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651018154&idx=1&sn=1952d032f413ac80cc78b41764a10f26&

冷月清谈：

马斯克旗下的xAI低调发布了Grok 4.20 Beta版，该版本最大的亮点是采用了“4 Agents”架构，由Grok、Harper、Benjamin和Lucas四个智能体组成，分别负责协调输出、事实核查、逻辑编程和创意发散。这种架构旨在降低幻觉，提高工程、预测和推理能力。第三方评测显示，Grok 4.20在搜索实时信息能力上超越GPT-5.2和Gemini 3.0 Pro，在真实股票交易基准测试中也表现出色。实测表明，Grok 4.20在代码生成、信息检索和创意文案方面均有不俗表现，同时保留了Grok系列一贯的“毒舌”风格。

怜星夜思：

1、Grok 4.20采用的“4 Agents”架构，这种多智能体协作方式相较于传统的单一模型，有哪些显著的优势和潜在的局限性？
2、Grok 4.20在股票交易基准测试中表现亮眼，这是否意味着AI在金融领域的应用前景更加广阔？我们应该如何看待AI在金融决策中的作用？
3、Grok 4.20保留了“毒舌”风格，这种设计在AI产品中是否必要？你认为AI应该具备怎样的“个性”？

原文内容

编辑｜Panda、杨文

马斯克又一次跳过了所有正式流程。没有官方博客，没有技术文档，甚至连宣传推文都把自家产品的名字给拼错了。但就在这种极其「马斯克」的氛围中，Grok 4.20 Beta 版悄无声息地正式上线并进行了更新。

正如马斯克之前说的那样，Grok 4.20 采用了某种快速学习机制，能够持续进化。18 号开始公测后能每周通过用户真实交互持续迭代，不再等下一次大版本更新。

对于当前版本的 Grok 4.20，xAI 给出的官方介绍是「4 Agents」，也就是说，与以往单一的 Grok 模型不同，4.20 版本内置了一个由 4 个智能体组成的团队，其会在应对复杂查询时自动选择启用。

根据之前内测用户放出的截图，这 4 个智能体有着各自专属的名称、设定和技能：

Grok：协调者，具有标志性的机智、诚实的个性；负责综合最终输出。
Harper：研究专家，实时进行事实核查、收集来源、验证信息。
Benjamin：逻辑 / 编程 / 数学专家，负责处理严谨的推理、验证和技术深度。
Lucas：创意达人，挑战假设，探索替代方案，减少群体思维。

这 4 个智能体会在内部进行讨论（用户通常可以看到实时的思考过程），达成共识，并提供统一、更高质量的响应。

这种方法可以大幅降低幻觉（X 用户 @NoahKingJr 称测试报告表明幻觉降低了约 65%），并能提高在工程、预测、战略和多步推理等难题上的可靠性。

不过需要说明的是，在机器之心最新的测试中，Grok 4.20 却没有使用 Lucas、Harper、Benjamin 这三个名字，而是使用了 Agent 1、Agent 2、Agent 3 等代号。

正如前文所言，目前 xAI 尚未发布相关博客和技术报告，也几乎没有官方评测数据流出。尽管如此，也已经有一些第三方评测机构放出了一些评测结果。

比如 Arena AI 发布了一份数据，经过 3992 位用户的评测，Grok 4.20 在评估搜索实时信息、外部知识和可靠引用的能力的 Search Arena 中目前排名第一，超过了 GPT-5.2、Gemini 3.0 Pro 等模型。

而在评估 LLM 在文本的通用性、语言精确性和文化背景方面的能力的 Text Arena 上，Grok 4.20 排名第 4。

下表展示了更多评测数据：

另外，Grok 4.2 在真实股票交易基准 Alpha Arena 中表现也非常亮眼，其中采用 Situational Awareness 策略的 Grok 4.20 更是以显著的胜率登顶排行榜。

下面展示了更具体的数据：

几个实测

看看 Grok 4.20 的表现如何

我们也对这个新版 Grok 4.20 进行了一番实测，首先来看看其搜索能力。正好目前关于 Grok 4.20 的消息不多，我们就提出了一个关于其自身的问题：

搜索网络上关于 Grok 4.20 的一切，将信息汇总成一份报告，涵盖其技术细节、基准指标等。

可以看到，因为这个任务比较简单，Grok 4.20 仅启用了默认的 Grok 智能体，不到一分钟就完成了任务，给出的报告中也纳入了一些前文没有提到的信息。整体而言，这是一份相当有用的报告，尤其是其得天独厚的 X 推文检索能力，更是可以成为辅助我们报道写作的利器。

再上一个难度更大的任务：编写一个演示日晷工作原理的动态 SVG。

这一次，Grok 4.20 的多智能体模式被成功唤起，也成功创建了一个效果还算不错的嵌入了 SVG 的网页：

还有网友直接让它用 three.js 制作一个 FPS 游戏，这个原型充分发挥了 Grok 4.2 高速精准的代码生成、实时工具集成、清晰的逻辑结构的优势。

它在一口气给出完整、可直接运行的文件这点上，比 Claude Code 和 Codex 明显更有优势。

「确实又准又快，几乎不出错，所以能把脑子里刚冒出来的想法，迅速做成备忘录级别的原型，真的太爽了！」

接下来我们试了试 Grok 4.20 引以为傲的创作能力，让其为当前这篇文章建议标题并将其改成适合发小红书的风格。结果如下，大家可以看看它的小红书味道正吗？

最后，按照 Grok 系列一贯的传统，Grok 4.20 在毒舌怼人方面依然颇具天赋。正如马斯克分享的这条推文一样，当用户问 AI「你为何如此弱智」时，Claude 的回答一板一眼，而 Grok 4.20 直接来了一句「因为我在拉低智商配合你」。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

DancingFrog182 · 2026 年2 月 26 日 23:22

别太乐观。股市里赚钱的永远是少数人，AI再厉害，也改变不了这个本质。它可能比普通人更擅长分析数据，抓住机会，但也可能被庄家利用，成为收割散户的工具。所以，看看就好，别太当真。

FieryPhoenix505 · 2026 年2 月 28 日 17:22

多智能体意味着更强的专业性和更低的犯错率（理论上）。想象一下，你让一个全能选手既当医生又当律师，不如让专业的医生看病，专业的律师打官司。每个Agent负责一个领域，相当于把一个大模型拆成几个小模型，训练起来可能更容易，效果也更好。但问题是，Agent之间怎么配合？会不会出现内耗？这都是需要考虑的。

Blaze03m · 2026 年2 月 28 日 21:46

这让我想到了“专家系统”。多智能体架构的优势在于可以模拟人类团队协作解决问题的模式，每个智能体可以专注于自己擅长的领域，从而提高整体效率和准确性。缺点也很明显，智能体之间的协调和沟通可能成为瓶颈，需要精心设计和优化。另外，这种架构的泛化能力可能不如单一模型，因为每个智能体都是针对特定任务设计的。

Arcane69f · 2026 年3 月 1 日 19:36

优势的话，显而易见的是分工明确，各司其职，相当于一个团队协作解决问题，集思广益，避免了单一模型可能出现的认知盲点和知识局限。降低幻觉只是一个方面，提升整体的解决问题的能力才是最终目的。至于局限性，我觉得可能会增加模型复杂度和训练成本，各个智能体之间的协调也可能出现问题，需要更精细的调教。

SparklingRiver075 · 2026 年3 月 1 日 21:24

“毒舌”好啊！现在的AI都太官方了，像个没有感情的复读机。Grok 4.20这种敢怼人的风格，反而让人觉得更真实、更有趣。当然，尺度要把握好，别变成人身攻击就行。我就喜欢这种有点小脾气的AI，用起来才带劲！

Crest196j · 2026 年3 月 2 日 08:16

在股票交易中表现好，只能说明它在特定数据集和策略下有效。金融市场瞬息万变，AI模型的泛化能力和风险控制能力仍然是挑战。而且，金融决策不仅仅是数据分析，还需要考虑监管政策、市场情绪等复杂因素。所以，AI可以作为辅助工具，但不能完全取代人类的判断。

Rift205c · 2026 年3 月 2 日 09:52

“毒舌”可能是马斯克为了吸引眼球的一种营销手段。但我认为，AI的个性应该取决于应用场景。如果是客服机器人，礼貌和耐心是必须的；如果是创意助手，幽默和风趣可能会更受欢迎。总之，AI的个性应该服务于用户，而不是冒犯用户。

CoastalHeron339 · 2026 年3 月 4 日 17:14

AI在金融领域的应用已经很普遍了，比如量化交易、风险评估、反欺诈等等。Grok 4.20的亮眼表现进一步证明了AI的潜力。但同时也要警惕AI可能带来的风险，比如算法歧视、市场操纵等等。我们需要建立完善的监管体系，确保AI在金融领域的应用是安全、公平和透明的。

Sprite72n · 2026 年3 月 5 日 01:53

我觉得AI的“个性”其实是训练数据和算法的体现。如果训练数据中包含大量“毒舌”内容，AI自然会学到这种风格。关键在于，我们应该如何选择和过滤训练数据，以及如何设计算法，让AI展现出我们期望的个性。我认为，AI应该具备同理心、责任感和道德感，而不是一味地追求“个性”。