BOSS直聘发布3B小模型Nanbeige4.1,多项指标超越32B大模型

BOSS直聘的3B小模型Nanbeige4.1表现惊艳,通用能力竟超越32B大模型,或将加速小模型时代到来。

原文标题:3B打32B?海外病毒式传播的小模型,竟然来自BOSS直聘

原文作者:机器之心

冷月清谈:

文章介绍了BOSS直聘南北阁实验室发布的Nanbeige4.1-3B模型,该模型在通用问答、复杂推理、代码能力和深度搜索等方面表现出色,不仅超越了同等规模的开源小模型,还在综合指标上超越了参数量大10倍的Qwen3-32B等模型。文章深入解析了Nanbeige4.1-3B在通用能力、编码能力和深度搜索方面的技术突破,包括分阶段优化策略、上下文长度扩展、RL训练和门控时间复杂度奖励等。实验结果表明,该模型在多个基准测试和真实任务中均表现出色,展现了小模型在精细化训练下的巨大潜力,预示着小模型时代的加速到来。

怜星夜思:

1、文章中提到 Nanbeige4.1-3B 在多项指标上超越了 Qwen3-32B,这是否意味着在所有应用场景下,小模型都优于大模型?在哪些场景下,我们仍然需要依赖大模型?
2、文章提到 Nanbeige4.1-3B 通过“SFT + 双阶段 RL”提升性能,能否详细解释一下这两个阶段分别解决了什么问题?以及为什么这种方式对小模型尤其重要?
3、文章中提到 Nanbeige4.1-3B 在深度搜索任务上达到了专业搜索Agent的水平,那么这种小模型在实际的商业搜索场景中,有哪些应用潜力?又会面临哪些挑战?

原文内容

图片
编辑|冷猫

这两年,大模型大厂之间堪比军备竞赛。不论开源还是闭源阵营,为了在指标上领先对手,都在疯狂地卷 Scaling Law,卷算力,卷参数量,已经达到了近乎离谱的程度。


过去,GPT-2 只有约 1.5B 参数,放在现在已经属于小模型。而 GPT-4 的参数规模业内估计约为 GPT-3 的 10 倍,至少是万亿水平,更不必论 GPT-5。而现在的开源大模型参数量同样在膨胀,大于 600B 参数的模型比比皆是。


回顾 2026 年前两个月的开放权重模型,Kimi K2.5 和 Ling 2.5 均已经达到万亿参数规模,模型结构也愈发复杂,而小模型却是凤毛麟角。


2026 年 1 月和 2 月发布的 10 个开放权重模型。图源 Sebastian Raschka:𝕏 @rasbt


但模型大就一定强吗?那也未必,模型参数越大,能力就越强的定律早已经摇摇欲坠了。



前些天全网都在讨论的「50 米洗车是走去还是开车去」的问题,难倒了一大片大模型,包括超大参数量的 GPT-5.3 Thinking。



但是,一个 3B 小模型却脱颖而出,在这个万亿级参数都未能正确推理的问题上,出色地推理出了「洗车必须得开车」的关键点。


图源:Huggingface 产品负责人 Victor M:𝕏 @victormustar


视频源:Huggingface 产品负责人 Victor M:𝕏 @victormustar


在效率和成本上,小模型有着不可替代的优势。


有没有可能,用一个小模型,就能实现「越级」,完成推理、编程、搜索等这些需要大量参数的模型才能完成的任务,甚至超越大模型的性能表现?


来自 BOSS 直聘 南北阁实验室 的 Nanbeige4.1-3B 给出了一个颇具冲击力的答案 —— 用一个小模型,实现通用问答,复杂推理,编写代码,深度搜索。



从评测结果来看,Nanbeige4.1-3B 不仅显著超越同规模的开源小模型(如 Qwen3-4B、Qwen3-8B),更在综合指标上超越了参数量大 10 倍的 Qwen3-32B 与 Qwen3-30B-A3B


这妥妥的外星科技啊。



值得关注的是,这两天 Qwen 团队发布了 Qwen 3.5 小模型系列,其能力受到广泛的赞誉。 Nanbeige4.1-3B 与参数大小接近的 Qwen3.5-4B 模型进行了对比,在 6 大核心指标中,Nanbeige4.1-3B 依然整体领先发布较晚的 Qwen3.5 小模型,体现了极其稳健的技术领先性。


Nanbeige4.1-3B 模型发布后不久,便迅速登上 HuggingFace 趋势榜单前列,拿下文本模型趋势榜第一,并且一度冲进全球模型总榜前三,在小模型赛道掀起了一波讨论热潮。


HuggingFace 文本模型趋势榜第一


这样一个模型,参数量小,推理速度快、部署成本低,却能够在核心能力上媲美大模型,无疑是大模型应用开发者的一阵强心剂,让未来 AI 模型的广泛应用充满了浪漫如同星河般的想象。



  • HuggingFace 链接: https://huggingface.co/Nanbeige/Nanbeige4.1-3B

  • Nanbeige4.1-3B 技术报告链接 :https://arxiv.org/abs/2602.13367

  • Nanbeige4-3B 技术报告链接:https://arxiv.org/abs/2512.06266


技术解析:当 3B 挑战 32B ,如何「小而全」?


实际上,我们对小模型总是有一些刻板印象。因为大部分的小模型都受限于参数量,导致其长短板都异常明显。换句话说,就是小模型很难实现「通用」。


大部分专注于解题的模型往往在长程交互(如深度搜索)上力不从心;而专注于代码或 Agent 的模型,又缺乏扎实的通用推理能力和人类偏好对齐能力。


这就是为什么 Nanbeige4.1-3B 在小模型领域中如此重磅。


它是一个「小而全」的统一通用模型。Nanbeige4.1-3B 的核心突破就在于「统一性」—— 它将通用问答、复杂推理、代码能力与深度搜索 Agent 能力系统性整合进 3B 规模之中。


这是一个很不可思议的能力压缩。为此,研究团队采用了一种分阶段、分领域的优化策略,既能够确保模型保持各领域的专长,又能够保持领域间的能力平衡。


通用能力:SFT + 双阶段 RL


在一个模型的完整训练链路里,包含了 SFT 数据构建和 RL 训练两大重要支柱。


很多人误以为,模型在通用任务的能力主要来自后期 RL 强化。但事实上,对于小模型而言,SFT 阶段决定了能力天花板的高度。如果基础分布学歪了,后面再怎么用 RL 修补,都会事倍功半。


为了在有限模型大小下获取更强的推理深度,Nanbeige4.1-3B 调整了指令数据的结构比例:提高代码类样本的占比;增加数学难题和复杂推理任务;引入更多跨领域综合问题。


这种做法对于 3B 规模尤其重要 —— 因为它没有足够冗余参数,必须在数据分布上提前强化。 当它在训练中频繁面对复杂结构问题时,参数空间会更偏向建模深层逻辑。


决定模型推理能力的第二大关键点,在于上下文长度


在上一代模型中,上下文训练采用两阶段课程,从 32K 扩展到 64K,而 Nanbeige4.1-3B 则进一步增加到三阶段:32K → 64K → 256K。渐进式扩展,通过课程学习的方式让模型逐步适应更长的依赖关系,更稳定地学习长距离注意力结构。


第三项优化则集中在 回复质量的提升


很多模型在推理任务中虽然能够给出正确答案,但思维链往往存在跳步、逻辑不连贯,甚至是事后补写解释的问题,这在小模型下更加明显。


为了解决这一现象,Nanbeige4.1-3B 升级了 Solution Refinement 与 CoT Reconstruction 两套框架。



前者通过增加解答迭代优化的轮次,让模型在生成初步答案后进行多轮自我修正,从而减少逻辑漏洞并提升推理完整性;后者则通过训练更强的思维链重构模型,使生成的推理路径更加忠实和一致。


从实验结果来看,Nanbeige4.1-3B 在采用了上述三点 SFT 阶段的改进方法后,相比前代模型 Nanbeige4-3B 的评估结果产生了巨大的飞跃,在编码和数学领域的 benchmark 中更为显著。



让模型拟合人类偏好,减少错误回答的现象,尤其是在参数规模有限的情况下,RL 重塑模型行为偏好的作用会被进一步放大。


有趣的是,南北阁团队创新性地将整个 RL 拆分为两个阶段:


  • Point-wise RL:核心目标很是提升单条回答的质量。引入通用 Reward Model,对回答质量进行评分,显著降低冗长、重复与格式错误。

  • Pair-wise RL:让模型与其他对手模型 PK 。对于同一个问题,比较两份回答,由 Pair-wise Reward Model 判断哪一个更优,并给出奖励信号,让模型在真实竞争环境中迭代提升。



这部分其实是 Nanbeige4.1-3B 在通用强化学习阶段最关键的设计之一。Point-wise RL 提升「智能的整洁度」,而 Pair-wise RL 提升的是「智能的锋利度」,让模型既在单点评分中提升,也在对抗评测中获得收益。


实验发现,在加入 Point-wise RL 后,模型在 Arena-Hard V2 的表现显著提升,并且 LiveCodeBench-v6 的因格式错误率从 5.27% 降至 0.38%。


在进行过 Point-wise RL 的模型基础上,引入 Pair-wise RL 还可以进一步拔高效果,不仅能提升 Pair-wise 打分评测的 Arena-Hard V2,而且也对 Point-wise 打分的 Multi-Challenge 也取得了明显收益。


编码能力:先做对,再做快


编码能力强悍的小模型并不多,其中相当一部分还是专为编码设计的模型。要想在一个全能通用的小模型上实现相当的编码性能,那就需要相当深刻的工程思维。


Nanbeige4.1-3B 在代码能力训练中,采用了两阶段 RL 策略,来解决一个代码复杂程度和正确性的两难矛盾:


  • 第一阶段优化正确率:pass-rate reward 定义为每个问题通过的测试用例比例。这一阶段的目标是确保模型能够可靠地解决问题。

  • 第二阶段在完全正确的前提下,引入时间复杂度奖励:Judge 系统通过在线比较模型输出的预测时间复杂度与参考最优边界来提供反馈,reward 公式如下所示:


图片


代码强化学习中的门控时间复杂度奖励设计。在该机制下,时间奖励仅在解答通过所有测试用例(PassRate = 1)时才会被激活。


这种「门控式」设计避免了模型在尚未掌握正确解法时盲目追求效率。训练曲线显示,模型在第二阶段时间复杂度奖励显著提升,同时保持稳定的正确率。


两阶段代码强化学习的训练动态。结果显示,从第一阶段到第二阶段,各项指标均呈现出稳定且持续的提升。


这类训练思路,与近期代码强化学习方向的主流趋势高度一致。


深度搜索:把智能体压进小模型


深度搜索任务本质上是长上下文、多跳推理、工具调用与信息整合的复合场景。多数小模型在这一类任务上往往「力不从心」。而这恰恰是 Nanbeige4.1-3B 区别于其他通用小模型的重要特色。


为了增强模型的搜索能力,团队构建了一个大规模、复杂的搜索数据集,包括从 Wikipedia 实体关系图中衍生的多跳问答对,以及经过严格多阶段过滤的高质量长程搜索轨迹。通过这种方式,训练数据天然具备结构复杂性和可验证性。


在训练阶段,系统引入了轮次级(turn-level)的质量控制机制。模型在每一次搜索交互中的行为都会被独立评估,而不仅仅关注最终答案。


一个 critic 模型从三个维度进行判定:推理过程是否逻辑自洽,工具调用是否准确,以及该轮操作是否带来有效信息增益。若某一轮未达到标准,在 SFT 阶段不会参与损失计算;在 RL 阶段则会触发负向奖励。


用于深度搜索的数据构建流程,包括复杂多跳问答样本的采样,以及长程推理轨迹的合成。


整体来看,这一设计的核心是训练模型形成稳定的「检索 — 判断 — 再检索」的循环结构。


通过结构化数据生成与过程级奖励约束,即便在 3B 规模下,模型也能够逐步学会规划搜索路径、控制误差传播,并在长上下文条件下保持推理一致性,让这个 3B 模型在深度搜索基准上达到了专业搜索 Agent 的水平。


实验结果:越级挑战与实战检验


在综合基准测试中,Nanbeige4.1-3B 显著超越同规模模型,并在多数测试上超过参数规模 10 倍以上的模型。



更值得注意的是,在与显著更大规模的 Qwen3-Next-80B-A3B 模型对比中,Nanbeige4.1-3B 依然保持竞争力,在各个指标上互有胜负。


Nanbeige4.1-3B 在深度搜索任务上表现尤为亮眼:



模型在 xBench-DeepSearch-2505 上达到 75 分,在 GAIA(text-only)上达到 69.90 分,这一成绩接近专为搜索打造的智能体小模型 AgentCPM-Explore-4B。


正如文章开头介绍的那样,研究团队将 Nanbeige4.1-3B 与发布时间晚三周的类似参数量的新款模型 Qwen3.5-4B 进行对比,Nanbeige4.1-3B 基本保持领先姿态。



真实任务评测,比静态 benchmark 更具说服力。在模型发布以后,研究团队特意选取了一些全新的真实任务的竞赛, Nanbeige4.1 与 Qwen3.5 小模型系列同台竞技。


在代码领域的 LeetCode Weekly Contest 与数学领域的 HMMT 2026 Feb(哈佛 - 麻省理工数学竞赛) 中,Nanbeige4.1-3B 的表现不仅显著优于 Qwen3.5-4B,甚至超过了参数量更大的 Qwen3.5-9B。




这些竞赛均在模型发布以后举办,完全排除了数据记忆的干扰,有力证明了 Nanbeige4.1-3B 具备极强的泛化能力与深度的逻辑推理水平,真正经得起实战检验。


总结:小模型时代正在加速


Nanbeige4.1-3B 的意义,在于在通用能力上的以小博大


小模型不再只是大模型的「轻量替代品」,而是在精细化训练方法的加持下,形成独立的,通用的能力体系。


参数规模的差距正在被训练范式的创新逐步弥补。与此同时,原本被认为依赖大模型规模优势的 Agent 能力与复杂推理能力,也开始下沉到更具部署友好性的尺度。


当 3B 大小的模型就可以稳定处理推理、编程与搜索任务,企业侧的部署范式将被重写。移动端、本地化、私有化部署场景的想象空间随之打开。


未来,BOSS 直聘南北阁实验室团队将持续探索小模型在复杂代码生成、科研辅助及真实工业环境中的能力边界,同时通过架构层面的创新进一步释放小模型潜力。从训练机制到结构设计,小模型的上限仍远未触顶。


大模型的边界仍在扩张,但小模型的效率革命也在发生。也许未来真正决定 AI 应用广度的,是小参数的模型所能释放的智能密度。


小模型的时代,才刚刚启幕。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


从博弈论的角度来看,Pair-wise RL引入了竞争机制,迫使模型不断学习新的策略,以战胜对手。这种“以战养战”的方式,能够激发模型的潜力,让它变得更强大。话说回来,我玩游戏也喜欢和人PK,这样才能进步嘛(滑稽)。

Point-wise RL提升的是模型的“智能整洁度”,让模型能够给出清晰、准确的答案,减少废话。Pair-wise RL提升的是模型的“智能锋利度”,让模型在竞争中不断进化,找到最优解。两者结合,就像打磨一把宝剑,既要锋利,又要美观。

个人觉得,这种“小而精”的模型如果成为趋势,AI应用会更加普及。毕竟,不是所有场景都需要“巨无霸”模型,小模型在移动端、嵌入式设备上的部署成本更低,也更灵活。想象一下,手机上的AI助手也能拥有强大的推理能力,感觉挺酷的!

从学术角度来看,这代表了AI研究方向的转变,以前大家都在追求更大的参数量,现在开始关注如何更有效地利用现有资源。这可能会催生更多新的优化算法和模型架构,提高AI的效率和可移植性。

深度搜索的应用场景可多了,比如智能客服,可以根据用户的问题,深入挖掘知识库,给出更准确的答案。还有金融风控,可以分析各种数据,找出潜在的风险点。甚至在医疗领域,也能帮助医生更好地诊断疾病。

我觉得这波小模型浪潮对创业公司是极大的利好。大厂军备竞赛,小厂另辟蹊径,没那么多算力也没关系,优化算法和数据,小模型也能有大作为。没准儿下一个独角兽就靠它了呢!

别忘了科研!深度搜索能帮助研究人员更快地找到相关的论文和数据,加速科学发现的进程。以后写论文,再也不用愁找不到参考文献了(手动狗头)。

RL分阶段训练的思路很常见,但这个Point-wise和Pair-wise的结合确实眼前一亮。相当于先打好基础,再进行实战演练。我之前在训练一个对话模型的时候,发现用“负采样”的方式,让模型学习区分“正确”和“错误”的回复,效果比单纯让模型生成回复要好很多。这个算不算一个有趣的trick?

我认为训练策略对小模型更重要。小模型的参数量有限,更容易过拟合或者欠拟合。好的训练策略可以避免这些问题,让模型更好地泛化。比如文章中提到的分阶段、分领域的优化策略,以及RL阶段的Point-wise RL和Pair-wise RL,都能有效地提升模型性能。

小模型在算力资源有限的场景下优势明显,比如移动设备或者嵌入式系统。推理速度快,功耗低,响应更及时。另外,对于一些数据敏感的场景,小模型可以本地部署,避免数据泄露的风险。

从成本角度考虑,如果任务本身不需要特别复杂的逻辑,小模型完全可以胜任,这样可以节省大量的计算资源和电费,降低运营成本。而且,小模型更容易训练和部署,可以快速迭代和调整。

我觉得在对实时性要求很高的场景下,小模型更有优势。比如智能客服,需要在短时间内给出回复,小模型推理速度快,可以更快地响应用户。而且,小模型更容易定制化,可以针对特定领域进行优化,达到更好的效果。

从商业角度看,精准营销将迎来升级。设想一下,AI能够通过深度搜索,更准确地了解用户的需求和偏好,从而推送更个性化的广告和产品推荐。但同时,我们也需要警惕滥用这种能力可能带来的隐私问题。

我持不同意见。我认为这些技巧并不是绝对必要的,关键在于数据的质量和多样性。如果数据足够好,模型就可以从中学习到足够的知识和能力。当然,如果数据质量不高,那么这些技巧就可以起到一定的弥补作用。对于大模型来说,由于其参数量足够大,可以通过增加数据量来提高性能,因此这些技巧的价值相对较低。

深度搜索能力意味着AI可以更好地理解用户意图,并从海量信息中找到最相关的答案。这对于智能助手、知识图谱、自动问答系统等应用都非常有价值。我们可以利用这种能力来构建更智能的搜索引擎,或者开发可以自动生成报告、分析数据的工具。

我觉得在信息检索方面,它可以提升搜索的准确性和效率。传统的关键词搜索很容易搜出一堆不相关的结果,但如果用Nanbeige4.1-3B,它可以更好地理解用户的意图,进行更精准的语义搜索。另外,在知识图谱问答方面,它可以实现更智能的问答交互,不仅能给出简单的答案,还能进行多跳推理,挖掘出隐藏在知识图谱中的深层关系。想象一下,以后我们查资料的时候,可以直接像跟专家聊天一样,让AI帮我们分析和总结,那效率得多高啊!

我倒是觉得小模型会越来越“专精”。现在很多小模型都是通用的,各个方面都懂一点,但都不精。未来,可能会出现更多针对特定领域、特定任务的小模型,比如专门用于代码生成的、专门用于医疗诊断的、专门用于金融风控的。这些模型虽然参数量小,但由于经过了精心的训练和优化,所以在特定领域内的表现甚至可以超过通用的大模型。

别忘了安全!有些企业的数据非常敏感,不能放到公有云上。这种情况下,小模型就能发挥优势了。可以把小模型部署在本地,对数据进行脱敏处理后再进行深度搜索,既能保证数据安全,又能享受AI带来的便利。不过本地部署对硬件要求比较高,需要一定的投入。

我比较关注的是这种小模型在处理复杂招聘需求方面的能力。现在的招聘市场越来越细分,很多职位要求都非常专业和复杂。如果Nanbeige4.1-3B能够理解这些复杂的需求,并准确地匹配到合适的候选人,那将极大地提升招聘的效率和质量。但是,这也对模型提出了更高的要求,需要它具备更强的语义理解和推理能力。