Grok 4.20 Beta版发布:马斯克携多智能体强势来袭

马斯克发布Grok 4.20 Beta版,采用多智能体架构,大幅降低AI幻觉,并在多项评测中表现亮眼。实测代码生成、信息检索能力强大,依然“毒舌”。

原文标题:马斯克:Grok今日归来!

原文作者:机器之心

冷月清谈:

马斯克旗下的xAI低调发布了Grok 4.20 Beta版,该版本最大的亮点是采用了“4 Agents”架构,由Grok、Harper、Benjamin和Lucas四个智能体组成,分别负责协调输出、事实核查、逻辑编程和创意发散。这种架构旨在降低幻觉,提高工程、预测和推理能力。第三方评测显示,Grok 4.20在搜索实时信息能力上超越GPT-5.2和Gemini 3.0 Pro,在真实股票交易基准测试中也表现出色。实测表明,Grok 4.20在代码生成、信息检索和创意文案方面均有不俗表现,同时保留了Grok系列一贯的“毒舌”风格。

怜星夜思:

1、Grok 4.20采用的“4 Agents”架构,这种多智能体协作方式相较于传统的单一模型,有哪些显著的优势和潜在的局限性?
2、Grok 4.20在股票交易基准测试中表现亮眼,这是否意味着AI在金融领域的应用前景更加广阔?我们应该如何看待AI在金融决策中的作用?
3、Grok 4.20保留了“毒舌”风格,这种设计在AI产品中是否必要?你认为AI应该具备怎样的“个性”?

原文内容

图片
编辑|Panda、杨文


马斯克又一次跳过了所有正式流程。没有官方博客,没有技术文档,甚至连宣传推文都把自家产品的名字给拼错了。但就在这种极其「马斯克」的氛围中,Grok 4.20 Beta 版悄无声息地正式上线并进行了更新。



正如马斯克之前说的那样,Grok 4.20 采用了某种快速学习机制,能够持续进化。18 号开始公测后能每周通过用户真实交互持续迭代,不再等下一次大版本更新。



对于当前版本的 Grok 4.20,xAI 给出的官方介绍是「4 Agents」,也就是说,与以往单一的 Grok 模型不同,4.20 版本内置了一个由 4 个智能体组成的团队,其会在应对复杂查询时自动选择启用。



根据之前内测用户放出的截图,这 4 个智能体有着各自专属的名称、设定和技能:


  • Grok:协调者,具有标志性的机智、诚实的个性;负责综合最终输出。

  • Harper:研究专家,实时进行事实核查、收集来源、验证信息。

  • Benjamin:逻辑 / 编程 / 数学专家,负责处理严谨的推理、验证和技术深度。

  • Lucas:创意达人,挑战假设,探索替代方案,减少群体思维。


这 4 个智能体会在内部进行讨论(用户通常可以看到实时的思考过程),达成共识,并提供统一、更高质量的响应。



这种方法可以大幅降低幻觉(X 用户 @NoahKingJr 称测试报告表明幻觉降低了约 65%),并能提高在工程、预测、战略和多步推理等难题上的可靠性。


不过需要说明的是,在机器之心最新的测试中,Grok 4.20 却没有使用 Lucas、Harper、Benjamin 这三个名字,而是使用了 Agent 1、Agent 2、Agent 3 等代号。



正如前文所言,目前 xAI 尚未发布相关博客和技术报告,也几乎没有官方评测数据流出。尽管如此,也已经有一些第三方评测机构放出了一些评测结果。


比如 Arena AI 发布了一份数据,经过 3992 位用户的评测,Grok 4.20 在评估搜索实时信息、外部知识和可靠引用的能力的 Search Arena 中目前排名第一,超过了 GPT-5.2、Gemini 3.0 Pro 等模型。



而在评估 LLM 在文本的通用性、语言精确性和文化背景方面的能力的 Text Arena 上,Grok 4.20 排名第 4。



下表展示了更多评测数据:



另外,Grok 4.2 在真实股票交易基准 Alpha Arena 中表现也非常亮眼,其中采用 Situational Awareness 策略的 Grok 4.20 更是以显著的胜率登顶排行榜。



下面展示了更具体的数据:



几个实测

看看 Grok 4.20 的表现如何


我们也对这个新版 Grok 4.20 进行了一番实测,首先来看看其搜索能力。正好目前关于 Grok 4.20 的消息不多,我们就提出了一个关于其自身的问题:


搜索网络上关于 Grok 4.20 的一切,将信息汇总成一份报告,涵盖其技术细节、基准指标等。



可以看到,因为这个任务比较简单,Grok 4.20 仅启用了默认的 Grok 智能体,不到一分钟就完成了任务,给出的报告中也纳入了一些前文没有提到的信息。整体而言,这是一份相当有用的报告,尤其是其得天独厚的 X 推文检索能力,更是可以成为辅助我们报道写作的利器。


再上一个难度更大的任务:编写一个演示日晷工作原理的动态 SVG。



这一次,Grok 4.20 的多智能体模式被成功唤起,也成功创建了一个效果还算不错的嵌入了 SVG 的网页:


图片


还有网友直接让它用 three.js 制作一个 FPS 游戏,这个原型充分发挥了 Grok 4.2 高速精准的代码生成、实时工具集成、清晰的逻辑结构的优势。



它在一口气给出完整、可直接运行的文件这点上,比 Claude Code 和 Codex 明显更有优势 。


「确实又准又快,几乎不出错,所以能把脑子里刚冒出来的想法,迅速做成备忘录级别的原型,真的太爽了!」



接下来我们试了试 Grok 4.20 引以为傲的创作能力,让其为当前这篇文章建议标题并将其改成适合发小红书的风格。结果如下,大家可以看看它的小红书味道正吗?



最后,按照 Grok 系列一贯的传统,Grok 4.20 在毒舌怼人方面依然颇具天赋。正如马斯克分享的这条推文一样,当用户问 AI「你为何如此弱智」时,Claude 的回答一板一眼,而 Grok 4.20 直接来了一句「因为我在拉低智商配合你」。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

别太乐观。股市里赚钱的永远是少数人,AI再厉害,也改变不了这个本质。它可能比普通人更擅长分析数据,抓住机会,但也可能被庄家利用,成为收割散户的工具。所以,看看就好,别太当真。

多智能体意味着更强的专业性和更低的犯错率(理论上)。想象一下,你让一个全能选手既当医生又当律师,不如让专业的医生看病,专业的律师打官司。每个Agent负责一个领域,相当于把一个大模型拆成几个小模型,训练起来可能更容易,效果也更好。但问题是,Agent之间怎么配合?会不会出现内耗?这都是需要考虑的。

这让我想到了“专家系统”。多智能体架构的优势在于可以模拟人类团队协作解决问题的模式,每个智能体可以专注于自己擅长的领域,从而提高整体效率和准确性。缺点也很明显,智能体之间的协调和沟通可能成为瓶颈,需要精心设计和优化。另外,这种架构的泛化能力可能不如单一模型,因为每个智能体都是针对特定任务设计的。

优势的话,显而易见的是分工明确,各司其职,相当于一个团队协作解决问题,集思广益,避免了单一模型可能出现的认知盲点和知识局限。降低幻觉只是一个方面,提升整体的解决问题的能力才是最终目的。至于局限性,我觉得可能会增加模型复杂度和训练成本,各个智能体之间的协调也可能出现问题,需要更精细的调教。

“毒舌”好啊!现在的AI都太官方了,像个没有感情的复读机。Grok 4.20这种敢怼人的风格,反而让人觉得更真实、更有趣。当然,尺度要把握好,别变成人身攻击就行。我就喜欢这种有点小脾气的AI,用起来才带劲!

在股票交易中表现好,只能说明它在特定数据集和策略下有效。金融市场瞬息万变,AI模型的泛化能力和风险控制能力仍然是挑战。而且,金融决策不仅仅是数据分析,还需要考虑监管政策、市场情绪等复杂因素。所以,AI可以作为辅助工具,但不能完全取代人类的判断。

“毒舌”可能是马斯克为了吸引眼球的一种营销手段。但我认为,AI的个性应该取决于应用场景。如果是客服机器人,礼貌和耐心是必须的;如果是创意助手,幽默和风趣可能会更受欢迎。总之,AI的个性应该服务于用户,而不是冒犯用户。

AI在金融领域的应用已经很普遍了,比如量化交易、风险评估、反欺诈等等。Grok 4.20的亮眼表现进一步证明了AI的潜力。但同时也要警惕AI可能带来的风险,比如算法歧视、市场操纵等等。我们需要建立完善的监管体系,确保AI在金融领域的应用是安全、公平和透明的。

我觉得AI的“个性”其实是训练数据和算法的体现。如果训练数据中包含大量“毒舌”内容,AI自然会学到这种风格。关键在于,我们应该如何选择和过滤训练数据,以及如何设计算法,让AI展现出我们期望的个性。我认为,AI应该具备同理心、责任感和道德感,而不是一味地追求“个性”。