清华团队新作:0.027B参数HRM模型,以“反内卷”姿态颠覆AI推理范式

清华团队发布27M参数AI,推理能力超越大模型,颠覆AI“蛮力”范式。

原文标题:马斯克挖不动的清华学霸,一年造出 “反内卷 AI”!0.027B参数硬刚思维链模型,推理完爆o3-mini-high

原文作者:AI前线

冷月清谈:

新加坡Sapient Intelligence公司推出仅2700万参数的AI模型HRM。该模型创新性地模拟人脑“隐性推理”机制,采用双递归模块实现“分层收敛”,在复杂推理任务上表现优异,甚至超越依赖思维链的大型模型,并在ARC-AGI测试中取得了显著成绩。HRM以极少数据和计算资源,实现了高效且低成本的推理能力。它的任务完成速度可提高百倍,训练成本大大降低。该模型由清华毕业生王冠与连续创业者郑晓明创立的团队研发,团队汇聚了来自全球顶尖AI机构的科学家,预示着AI领域效率与结构将战胜参数。它颠覆了当前AI“越大越好”的认知范式。

怜星夜思:

1、文章里提到HRM不依赖思维链,而是“隐性推理”。大家觉得这种“隐性推理”的优势除了效率高、数据需求少,还有没有其他更深远的意义?比如,它是不是更接近人类真正的思考方式?如果真是这样,我们怎么界定“人工智能”的“智能”呢?
2、HRM的成功,是不是意味着“大模型”的时代要过去,或者说“越大越好”的观念不一定对?未来AI发展趋势会是更偏向“小而精”的专业模型,还是继续在通用大模型上卷参数?大家怎么看待这种“反内卷AI”的趋势?
3、这团队核心是刚毕业的清华学生,加上一批顶尖科学家,在没有巨额融资的情况下做出这么牛的东西。这给我们国内的AI创业和研究有哪些启示?是不是说,优秀的人才和好的思路比烧钱更重要?

原文内容

整理 | 华卫

近期,总部位于新加坡的 Sapient Intelligence 推出了一款新的人工智能模型,名为 HRM。其参数规模仅为 2700 万,但能够解决那些让当今先进大型语言模型都束手无策的复杂推理难题。

据其研究人员称,像 ChatGPT 这类模型存在一个问题——它们在架构上属于“浅层”设计。这些模型依赖“思维链(CoT)”提示法(本质上是通过一步步自言自语来拆解问题)作为辅助手段,但这种方式存在隐患:只要一步出错,整个推理过程就会偏离正轨。而这次发布的小型模型 HRM 采用了截然不同的思路,其做法是借鉴了人类大脑的工作方式。

发布后,该模型迅速引起了网友的讨论。不少网友震惊于该模型的参数规模及带来的效果,称“这太疯狂了”。一位网友指出,“一个名为 HRM 的小型 AI 模型刚刚击败了 Claude 3.5 和 Gemini,它甚至不使用 token。”

一位资深投资人对该模型的成果论文给予极高的评价:“人工智能领域最重要的论文之一”。还有一位网友称,“如果这个成果得以确立,它不仅仅是一篇人工智能论文——它标志着一个哲学性的转变。效率和结构或许终于能够战胜蛮力。”

值得一提的是,Sapient Intelligence 背后是一个大学生团队。2024 年 8 月,刚从清华大学毕业的王冠和连续创业者郑晓明共同创立了这家公司。

创业之前,王冠尝试做了一个仅 7B 大小的的开源模型 OpenChat,发布后在 Github 上获得 5.2k stars,在无融资和推广的情况下成为全世界下载量最高的开源模型之一,在 Hugging face 上月均下载量一直在 20 万以上。

之后,这个开源小模型还获得了马斯克的关注与青睐。据了解,XAI 曾向王冠伸出橄榄枝,想让他利用 OpenChat 的经验从事模型开发工作,但被其拒绝了。

王冠与郑晓明的相识,也与 OpenChat 有很大关联。彼时,Austin 正在寻找可以在 AGI 领域有突破、致力于改变世界的年轻人,借由 OpenChat 的热度,他在 Github 上发现了王冠。

据悉,在创立初期,Sapient Intelligence 汇聚了众多来自世界各地的一线科学家,包括 XAI、Deepmind、Google、Anthropic、Meta 和 Microsoft 等世界级 AI 机构的资深科学家。这些来自世界各地的人才曾领导或参与过众多知名模型和产品的开发,包括 AlphaGo、Gemini、Microsoft Copilot 等。

  准确率碾压先进思维链模型,

推理能力超越 o3-mini-high

当前,大型语言模型在面对复杂问题时很大程度上依赖思维链提示法,将问题拆解为基于文本的中间步骤,本质上是强迫模型在朝着解决方案推进的过程中 “大声思考”。尽管思维链提升了大型语言模型的推理能力,但它存在根本性局限。

Sapient Intelligence 的研究人员在论文中指出:“用于推理的思维链只是一种辅助手段,并非理想的解决方案。它依赖于脆弱的、人为定义的分解方式,其中任何一个步骤出错或步骤顺序混乱,都可能导致整个推理过程彻底偏离轨道。”

这种对生成显性语言的依赖,将模型的推理限制在了 token 层面,这往往需要海量的训练数据,并且会产生冗长而缓慢的响应。这种方法还忽略了那种在内部发生、无需通过语言明确表达的“隐性推理”。正如研究人员所指出的:“我们需要一种更高效的方法来减少这些数据需求。”

据 Sapient Intelligence 介绍,其推出的 HRM 在复杂推理任务上能与大型语言模型不相上下,在某些情况下甚至远超后者,同时其规模显著更小,数据效率也更高。

研究人员对该模型的测试结果显示,在“极限数独”和“高难度迷宫”基准测试中,最先进的思维链模型彻底失败,准确率为 0%;相比之下,HRM 在每个任务仅用 1000 个样本训练后,就达到了接近完美的准确率。

在用于测试抽象推理与泛化能力的 ARC-AGI 基准测试中,这个参数规模仅为 2700 万的 HRM 取得了 40.3% 的得分。这一成绩超过了主流的基于思维链的模型,如规模大得多的 o3-mini-high(34.5%)和 Claude 3.7 Sonnet(21.2%)。(根据之前微软论文,几款主流模型参数量分别为:Claude 3.5 Sonnet: 175B;GPT-4: 1.76T;GPT-4o: 200B;o1-preview: 300B;o1-mini: 200B。)HRM 在没有大型预训练语料库、仅用极少数据的情况下就实现了这样的性能,充分彰显了其架构的强大与高效。

除此之外,HRM 在另一类问题上体现出现实世界中的意义。Sapient Intelligence 的创始人兼  CEO 王冠表示,开发者应继续使用大型语言模型处理语言相关或创意任务,但对于“复杂或确定性任务”,类似 HRM 的架构能以更少的幻觉输出实现更优性能。他特别指出了“需要复杂决策或长期规划的序列性问题”,尤其是在具身 AI 和机器人等对延迟敏感的领域以及科学探索等数据稀缺的领域。

在这些场景中,HRM 不仅能解决问题,还能学得更高效的解决方法。“在我们的大师级数独实验中,随着训练推进,HRM 需要的步骤逐渐减少——就像新手成长为专家的过程。”王冠解释道。

受大脑启发,

提出“隐性推理”路径

据介绍,HRM 的灵感来源于人类大脑如何利用不同系统进行慢速、审慎的规划和快速、直觉性的计算。并且,该模型仅需当今大型语言模型所需数据和内存的一小部分,就能取得令人瞩目的结果。这种高效性可能对现实世界中的企业级人工智能应用产生重要影响 —— 在这些场景中,数据往往稀缺,计算资源也十分有限。

在论文中,Sapient Intelligence 详细介绍了他们所探索的各种思路及做出的相关研究工作。

首先,为突破思维链的局限,研究人员探索了“隐性推理”——模型不再生成“思考 tokens”,而是通过其内部对问题的抽象表征进行推理。这与人类的思考方式更为契合:“大脑能在隐性空间中以极高的效率维持冗长且连贯的推理链,无需不断将其转化为语言。”

然而,在人工智能中实现这种深度的内部推理并非易事。在深度学习模型中简单堆叠更多层,往往会导致“梯度消失”问题——学习信号在各层间逐渐减弱,使训练效果大打折扣。另一种选择是通过循环计算的递归架构,但这类架构又可能面临“过早收敛”问题——模型在未充分探索问题的情况下就仓促得出结论。

为了找到更优方案,Sapient Intelligence 团队转从神经科学中去寻求灵感。“人类大脑为实现当代人工模型所缺乏的有效计算深度提供了极具吸引力的蓝图。它通过不同时间尺度运作的皮质区域,对计算进行分层组织,从而实现深度、多阶段的推理。”研究人员写道。

受此启发,他们为 HRM 设计了两个耦合的递归模块:一个是用于慢速、抽象规划的高层(H)模块,另一个是用于快速、细节计算的低层(L)模块。这种结构实现了团队所说的“分层收敛”过程。直观来看,快速运作的 L 模块处理部分问题,执行多步计算直至得出稳定的局部解;此时,慢速运作的 H 模块接收这一结果,更新整体策略,并向 L 模块下达新的、更精确的子问题。这一过程有效重置了 L 模块,避免其陷入僵局(过早收敛),同时让整个系统能以精简的模型架构执行长序列推理步骤,且不会出现梯度消失问题。

论文中提到,“这一过程使 HRM 能够执行一系列独特、稳定且嵌套的计算——H 模块主导整体解题策略,L 模块则负责执行每一步所需的密集搜索或细化工作。”这种嵌套循环设计让模型能在隐性空间中深度推理,无需冗长的思维链提示或海量数据。

一个自然会产生的疑问是:这种“隐性推理”是否以牺牲可解释性为代价?对此,王冠并不认同。他解释说,模型的内部过程可以被解码和可视化,就像思维链能让人窥见模型的“思考”过程一样。他还指出,思维链本身可能具有误导性。“思维链并不能真正反映模型的内部推理。”

王冠在接受采访时表示,他引用的研究显示,模型有时会在推理步骤错误的情况下得出正确答案,反之亦然,“它本质上仍然是一个黑箱。”

经济性突出,

任务效率百倍提升

对于企业而言,架构的高效性直接转化为经济效益。据王冠估计,不同于思维链那种逐 token 的串行生成方式,HRM 的并行处理能力可实现“任务完成时间 100 倍的提速”。这意味着更低的推理延迟,以及在边缘设备上运行强大推理的能力。

为了直观说明其高效性,他提到训练达到专业水平数独能力的模型仅需约 2 个 GPU 小时,而针对复杂的 ARC-AGI 基准测试,也只需 50 到 200 个 GPU 小时——这只是大型基础模型所需资源的一小部分。这为解决特定业务问题开辟了道路,从物流优化到复杂系统诊断,这些场景往往数据和预算都有限。

“与大型、昂贵且延迟高的基于 API 的模型相比,像 HRM 这样的专用推理引擎为特定复杂推理任务提供了更具前景的替代方案。”王冠说道。

据悉,Sapient Intelligence 已着手将 HRM 从专用问题求解器发展为更通用的推理模块。“我们正积极开发基于 HRM 的类脑模型。”同时,王冠强调了他们在医疗健康、气候预测和机器人技术领域取得的初步可喜成果。据其透露,这些下一代模型将与当今的文本型系统有显著差异,尤其是会加入自我修正能力。

参考链接:

https://arxiv.org/pdf/2506.21734

https://venturebeat.com/ai/new-ai-architecture-delivers-100x-faster-reasoning-than-llms-with-just-1000-training-examples/

https://36kr.com/p/2957829366400520

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


今日荐文

图片

你也「在看」吗?👇

老哥提的问题很犀利啊!我觉得除了效率和数据,隐性推理更深远的意义在于,它为未来更通用、更接近“AGI”的AI提供了一种新的可能性。现在的大模型虽然强,但很多时候像是在“背题库”,或者套用固定的解题模板。隐性推理如果真的能在内部实现更灵活、更泛化的模式识别和问题解决,那它就能更好地应对未知场景。想想具身AI和机器人,它们可没法一步步跟自己念叨“我要先抬手,再抓杯子”,很多动作是基于环境的直接反馈和内部直觉式的决策。如果AI能达到这个层面,是不是离真正意义上的“智能”又近了一步?毕竟,我们人类大部分时间也是“意会”而非“言传”的。

太振奋人心了!这不就是典型的“屌丝逆袭”嘛,咳咳,我说的是在资源相对没那么充裕的情况下,也能做出世界级的成果!这说明好点子和牛人才是AI创业的真核心!国内很多初创公司可能没有硅谷那么多钱去烧,但我们有勤奋、有聪明人,还有国家对科研的重视。HRM的案例告诉我们,只要能找到对的方向,突破式的创新不一定需要无底洞般的投入。这给了很多有志于AI创业的年轻人巨大信心,不用担心自己没背景、没大厂光环,只要idea够硬、团队够拼,一样能搞出大名堂!

“反内卷AI”这个词儿简直太戳心了!必须点赞HRM!大模型虽然很炫酷,但动辄几千上万块钱一张的显卡,天价算力,不是一般公司能玩得起的。HRM这种低成本高效率的模式,简直是中小企业和创业者的福音!这肯定会是未来趋势之一。想象一下,以后每个行业、每个企业都能根据自己的数据和需求,定制化一个小而强大的AI模型,那才是真正的“AI普惠”啊!这不仅能降低AI应用的门槛,还能激发更多创新,让AI真正深入到各行各业,卷参数不如卷思路和架构,这才是良性竞争嘛!

这问题好玩!隐性推理嘛,听起来就像是AI在“开小差”或者“摸鱼”的时候,在脑子里偷偷把事儿办了,然后直接给你结果,还不告诉你它是怎么想的,是不是有点像我们考试时那些“秒出答案”的大神?哈哈哈。至于怎么界定AI的“智能”,我觉得可能它能把我要做的复杂Excel公式直接给我写出来,并且不出错,那就是真智能了!管它“显性”还是“隐性”呢,好用就是王道!开个玩笑,但从实用角度看,确实解决问题比理解它“怎么想的”更关键。

回应一下关于“隐性推理”的问题。学界对人类思维的研究一直认为,我们的很多决策和认知过程并非完全是显式的、语言化的步骤。HRM的“隐性推理”路径,如果真的能有效模拟这种内部机制,那么它在哲学层面的意义在于,它挑战了AI必须“可解释”才能“智能”的传统观念。这意味着AI的“智能”可能更多地体现在其解决问题的效率和准确性上,而非其内部步骤的可读性。它可能促使我们重新思考,高阶智能的本质是否就是对信息进行高效、抽象的内部处理,而不必都转化为符号或语言。从这个角度看,AI的智能界定会变得更加模糊但可能也更贴近生物智能的本质。

这问题就跟咱们玩游戏一样,是充钱就能变强,还是肝帝也能封神?显然,HRM这事儿就是告诉我们,有顶级操作和神级理解,哪怕装备不是最好的,也能打出爆炸伤害!那些光靠充钱刷数值的,可能操作跟不上,最后还是被我们这些“肝帝”用智商碾压。所以对国内AI,启示就是:别光想着当“神豪”,要多培养“技术流”和“策略流”玩家!钱固然重要,但聪明人的大脑才是真正的“印钞机”啊,而且这种“印钞机”还特别环保,不耗电还自带算力优化。:wink:

关于人才和资源的问题,我深有同感。这篇文章给国内AI创业和研究带来了非常积极的启示:核心竞争力最终还是体现在“人”和“思想”上。我们不能一味地追求“烧钱扩规模”,而应该将更多精力投入到基础理论研究、创新架构设计以及高水平人才培养和留用上。像王冠这样的清华学霸,加上全球顶尖科学家的团队,他们的智慧结晶远比单纯的算力堆砌更具价值。这提醒我们,在AI的军备竞赛中,除了技术和资本,如何集聚并发挥顶级“智力资本”的作用,是更关键的战略性问题,也是我们有机会实现“弯道超车”的方向。

关于大模型趋势的问题,我个人觉得“大模型”时代不会完全过去,但“唯大是举”的观念肯定会受到挑战。HRM这类“小而精”的模型,表明在特定领域或复杂推理任务上,通过优化架构和算法,小模型也能展现出超越大模型的能力。未来的发展趋势,很可能是“通用大模型”与“专用小模型”协同发展。大模型负责通用理解、创意生成和多模态交互;而小模型则在特定、高精度的推理或对延迟、成本敏感的场景中发挥优势。这就像电脑里的CPU和GPU:一个负责通用计算,一个负责图形渲染。各自发挥所长,共同推动AI进步,这才更健康嘛。

要我说啊,什么“大模型时代过去”还“小而精”,这事儿远没那么简单。HRM确实牛,但它目前还是个“专才”,在数独、迷宫这些确定性问题上表现突出。大模型之所以“大”,是因为它试图覆盖尽可能多的通用能力,比如理解人类语言、生成创意内容等等,这些是小模型暂时无法替代的。所以,与其说大模型时代要过去,不如说大家会开始更理性地看待模型规模。但资本和算力竞赛可能还是会继续,毕竟“通用AI”的诱惑力太大了。除非小模型能很快地泛化到更多通用领域,不然大模型依然会是AI领域的“顶流”,只是可能不会再那么“不计成本”地膨胀下去了。