Meta开源MobileLLM-R1：小参数模型在特定领域实现性能新突破

almosthuman2014 · 2025 年9 月 13 日 16:52

Meta开源MobileLLM-R1，不到1B参数，用1/10训练数据量，在数学编程等领域性能超越竞品，小模型部署潜力巨大。

原文标题：Meta开源MobileLLM-R1模型，不到1B参数，用1/10的训练就超越了Qwen3

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650990407&idx=1&sn=ced5cbd62fea316fcba658d42509b46d&

冷月清谈：

Meta AI 近日发布了全新的高效推理模型系列 MobileLLM-R1，包含基础模型和最终模型版。该系列最大的 MobileLLM-R1 950M 模型，参数低于1B，却展现出令人瞩目的性能。

MobileLLM-R1 与现有全开源模型相比，性能提升显著。最引人注目的是，它仅使用了约2T高质量token进行预训练，总训练token量少于5T，但在MATH、GSM8K、MMLU和LiveCodeBench等基准测试中，其性能与使用36T token训练的Qwen3 0.6B相当或更优。特别是在MATH基准测试上，MobileLLM-R1 950M的准确率比Olmo 1.24B高出约五倍，比SmolLM2 1.7B高出约两倍，并在编码测试中刷新了完全开源模型的最高水平。

这些模型并非通用聊天模型，而是监督微调 (SFT) 模型，专门针对数学、编程（Python、C++）和科学问题进行训练。 Meta不仅开源了模型本身，还发布了完整的训练方案和数据源，以确保可重复性和促进后续研究。

此次发布在机器学习社区引发热议，因为它证明了小体量模型在特定领域内也能实现极高的效率和性能。这意味着训练成本更低廉，便于快速尝试最新技术；更重要的是，模型体量的下降使其能够适配更多的端侧设备，推动AI在更广阔的应用场景落地。该项目由三位华人研究科学家Zechun Liu、Ernie Chang和Changsheng Zhao领衔研发。

怜星夜思：

1、MobileLLM-R1这类小巧高效的模型出来后，大家觉得以后我们日常生活里，**哪些设备或场景最有可能先体验到这种 AI 的厉害之处呢？** 比如手机、智能家居还是啥？会有什么新奇的应用出现吗？
2、文章里说MobileLLM-R1只用了不到5T的训练token，就实现了这么好的效果，尤其对比竞品训练数据量小很多。大家觉得**这种“少而精”的训练方式，到底是不是未来小模型的主流方向？** 是因为数据筛选更严格，还是模型架构有特别优化？
3、MobileLLM-R1是SFT模型，专门针对数学、编程这些领域优化。这听起来很专业，但如果它不是通用聊天模型，大家觉得**这种“专精型”AI，在哪些方面会有优势，又会在哪些方面遇到瓶颈呢？** 会不会以后每个领域都搞一个这样的专用AI？

原文内容

机器之心报道

编辑：泽南、杨文

与其他全开源模型相比，性能提升2-5倍。

小参数模型也进入了 R1 时代，这次开源出新技术的是 Meta。

本周五，Meta AI 团队正式发布了 MobileLLM-R1。

HuggingFace 链接：https://huggingface.co/collections/facebook/mobilellm-r1-68c4597b104fac45f28f448e

试用链接：https://huggingface.co/spaces/akhaliq/MobileLLM-R1-950M

这是 MobileLLM 的全新高效推理模型系列，包含两类模型：基础模型 MobileLLM-R1-140M-base、MobileLLM-R1-360M-base、MobileLLM-R1-950M-base 和它们相应的最终模型版。

它们不是通用的聊天模型，而是监督微调 (SFT) 模型，专门针对数学、编程（Python、C++）和科学问题进行训练。

除了模型本身之外，Meta 还发布了完整的训练方案和数据源，以确保可重复性并支持进一步的研究。

值得注意的是，该系列参数最大的 MobileLLM-R1 950M 模型仅使用约 2T 高质量 token 进行预训练，总训练 token 量少于 5T，但在 MATH、GSM8K、MMLU 和 LiveCodeBench 基准测试中，其性能与使用 36T token 进行训练的 Qwen3 0.6B 相当或更佳。

与现有的完全开源模型相比，尽管参数规模明显更小，MobileLLM-R1 950M 模型在 MATH 基准上的准确率也比 Olmo 1.24B 模型高出约五倍，比 SmolLM2 1.7B 模型高出约两倍。此外，MobileLLM-R1 950M 在编码基准测试中的表现远超 Olmo 1.24B 和 SmolLM2 1.7B ，在完全开源模型中创下了新的最高水平。

Token 效率的比较如下：

后训练比较：

模型架构：

MobileLLM-R1 的发布引起了机器学习社区的讨论。人们欢迎通义、Meta 等顶尖大模型团队基于小体量模型的探索。这一方向的训练成本较为低廉，可以更加方便尝试各类最新论文提出的技术，更重要的是，模型体量的下降也意味着它可以覆盖更多端侧设备，实现更大面积的落地。

随着训练成本普遍下降，我们将会得到更好的模型。

背后三位华人作者

在 MobileLLM-R1 系列发布的同时，背后的作者们也正式亮相，他们表示，该工作的研发时间有一年之久。该项目由华人领衔。

Zechun Liu

Zechun Liu 是 Meta AI 的研究科学家，专注于大模型和基础模型的高效部署与优化。

她的研究涉及大语言模型的预训练与后训练，神经网络架构设计与搜索，量化、剪枝与稀疏性，知识蒸馏以及高效的视觉 - 语言模型等，目标是在计算资源有限的环境中实现高性能模型的推理和部署。

2016 年，她在复旦大学获得本科学位，2019 年至 2021 年在卡内基梅隆大学担任访问学者，导师为 Marios Savvides 教授和 Eric Xing（邢波）教授。2021 年 6 月获得香港科技大学的博士学位，师从 Kwang-Ting Tim CHENG 教授。

Zechun Liu 在顶级会议和期刊上发表了 20 多篇论文，其论文引用量达到了数千次。

Ernie Chang

Ernie Chang 是 Meta AI 的研究科学家，专注于自然语言处理、多模态学习和高效模型部署等领域。

他于 2023 年 2 月加入 Meta，参与了多个前沿项目的研究和开发。

在他的研究中，Ernie Chang 参与了多个重要的项目和论文。例如，他是《Agent-as-a-Judge: Evaluate Agents with Agents》一文的共同作者，该论文提出了一种新的评估方法，通过代理模型对其他代理模型进行评估，从而提高评估效率和准确性。

此外，他还参与了《MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》的研究，该研究致力于优化小语言模型，以适应移动设备上的应用需求。

Ernie Chang 的研究兴趣包括多语言处理、多模态系统等。

Changsheng Zhao（赵常盛）

Changsheng Zhao 是 Meta AI 的研究科学家，专注于自然语言处理、深度学习和大语言模型的高效部署与优化。

他本科毕业于北京大学，后在哥伦比亚大学攻读硕士学位，毕业后去了三星美国研究员担任研究员，2021 年加入 Meta。

在 Meta，Changsheng Zhao 参与了多个前沿研究项目，主要集中在模型量化、神经网络架构和多模态系统等领域。部分代表性工作包括：

ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization：探讨极低比特量化在大语言模型中的缩放定律，帮助平衡模型大小与准确率。

Llama Guard 3-1B-INT4：参与开发 Meta 的开源 Llama Guard 模型变体，这是一个紧凑高效的 1B 参数 INT4 量化版本，于 2024 年 Meta Connect 活动中开源，用于 AI 安全和内容过滤。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

LaughingDolphin634 · 2025 年9 月 14 日 20:14

优势很明显啊，就是“术业有专攻”！比如我是程序员，我需要一个能准确帮我改Python代码、推导数学公式的AI，而不是一个只能跟我聊天的花瓶。这种专精型AI能在它的领域里做到极致，速度快，出错少，还能在本地跑不用联网。但缺点也多啊，你让它去写诗、画画、或者跟你八卦明星，它肯定就歇菜了。它就只懂它的那点专业知识。我觉得将来应该会是“大模型+小模型”的组合拳吧，大模型负责聊天、创意这类泛领域的事，小模型负责各种专业活儿，感觉这才是最实用的。

Strider82w · 2025 年9 月 15 日 16:45

我觉得最直接的就是我们手里的手机啊！现在手机上的AI好多还是要联网才能用，MobileLLM-R1这种能跑在本地的，以后手机里的计算器，或者一些学习APP，直接就能变超强的数理编程小助教，不用联网也能搞定难题。还有就是智能音箱，现在回答复杂问题还是有点卡顿或者答不对，如果本地化能力强了，可能就不再是简单的“播放音乐”了，而是能辅导孩子写作业那种。再大胆点，无人机、VR/AR眼镜这些对实时性要求高的设备，如果能内置这种AI，肯定体验会好一大截。想想看，戴着AR眼镜就能实时得到代码bug提示，那得多方便？

SapphireCat928 · 2025 年9 月 16 日 07:17

这不就是AI界的“偏科生”吗？数理化竞赛全国第一，语文英语不及格那种！优势就是——你扔给它个解方程的或者找代码bug的活儿，它给你咻的一下就做出来了，快准狠，还能离线跑，简直是学霸的电子脑！但你让它跟你聊聊最近的电影、点评一下时尚潮流，它可能就只能回答“您提到的问题不属于我的训练范畴”了。所以，就像我们不会指望一个数学家去写诗一样，我们也得清楚这种AI的能力边界。未来的AI世界，估计就是既有“全能型选手”（大模型），也有各种“单科状元”（SFT小模型），各司其职，组成一个“AI班级”，挺好的！

Valor47z · 2025 年9 月 17 日 07:26

对于“这种‘专精型’AI，在哪些方面会有优势，又会在哪些方面遇到瓶颈呢？”的讨论，MobileLLM-R1作为SFT模型，其核心优势在于深度优化和高效率。优势体现在：高垂直领域的准确性和专业性（如特定编程语言的bug修复、复杂数学问题的符号推理），资源消耗低（小模型、低能耗、易部署于端侧设备），以及更快的响应速度和更强的隐私保护（本地运行减少数据上传）。但其瓶颈也显而易见：泛化能力弱，无法处理训练领域之外的开放性问题；用户体验受限，不能进行通用聊天或跨领域知识问答；部署灵活性不高，如果需要新的专业领域，往往需要重新训练或大幅微调。至于未来是否每个领域都搞一个专用AI，我认为这会是一个分布式AI系统的趋势：核心是通用大模型提供基础智能，而众多小而精的SFT模型则作为专业插件，在各自擅长的领域提供极致性能。这样既能利用通用模型的广度，又能发挥专用模型的深度和效率。

Wisp43b · 2025 年9 月 17 日 08:51

关于“MobileLLM-R1这种‘少而精’的训练方式，到底是不是未来小模型的主流方向？”我认为它确实揭示了小模型发展的一个重要趋势。这背后可能涉及几个关键因素：一是高质量数据筛选和去噪：相比于追求海量无序数据，聚焦于领域内的高质量、高信息密度数据，能让模型在更少的token量上习得更有效的知识。二是高效的数据混合策略和课程学习：在训练过程中对不同类型数据进行优化配比，并可能采用逐步提升难度或聚焦特定技能的训练顺序。三是模型架构的针对性优化：虽然文章没有详细展开，但MobileLLM-R1的架构很可能针对其目标任务（数学、编程）进行了精细调整，比如更高效的注意力机制、编码器-解码器结构优化等。四是蒸馏或知识迁移技术：可能从更大的模型中蒸馏知识，或者通过多任务学习使其在有限数据上达到更高性能。总之，‘少而精’并非放弃数据量，而是强调数据质量和训练策略的智能化。对于资源有限的端侧部署而言，这无疑是极具前景的方向，但对于通用大模型，海量数据依然是构建世界模型的基石。

SapphireCat928 · 2025 年9 月 17 日 12:38

这不就是教育界常说的“死记硬背不如理解精髓”吗？以前是“题海战术”，拿海量数据硬砸，看谁能记住的知识点多。现在MobileLLM-R1告诉我们，“选择好题型，理解透彻解题思路，比做一万道重复题更有效！”。可能他们团队有“AI高考状元培养秘籍”，知道怎么把知识点高效地灌输给模型。说不定以后AI培训班也开始分“大模型通识班”和“小模型精修班”了，哈哈。

SilverWolf359 · 2025 年9 月 17 日 15:40

哈哈，问这问题，我第一反应就是我们这些苦逼的程序员！以后谁还用Stack Overflow啊，直接手机里装个MobileLLM-R1，敲代码的时候实时帮你找bug、优化代码、甚至生成测试用例，想想就香！什么？你说通用聊天？聊天那种花里胡哨的交给云端呗，我这写代码解数学题的，要的是真·硬核·效率！以后出差坐飞机没网了，也能安心写代码敲公式，这不就是程序员的梦想吗！感觉离手腕上的AI教练不远了。

Whisper28f · 2025 年9 月 18 日 07:03

针对“MobileLLM-R1这类小巧高效的模型出来后，哪些设备或场景最有可能先体验到这种 AI 的厉害之处？”这个问题，从技术趋势看，边缘计算和嵌入式AI将是主要受益者。想象一下，未来手机上的AI助手能够更精准地理解复杂指令，处理本地数据，例如实时的代码辅助、复杂的数学问题求解器，甚至是在没有网络连接时也能提供高质量的专业支持。智能家居设备如语音助手、智能音箱，可能不再仅仅是简单的命令执行者，而是能提供更深层次的专业知识问答和推理。车规级芯片上的AI则可以实现更精细的自动驾驶辅助、车内智能交互，尤其是在处理高精度传感器数据和实时路径规划时，本地化的高效推理能显著提升响应速度和安全性。此外，工业物联网中的故障诊断、医学影像分析的初步筛选，也可能借此实现更高效率的端侧部署。最关键的是，这种本地化处理可以大幅提升用户隐私保护。

Radiant43s · 2025 年9 月 19 日 08:06

我觉得肯定是个大方向！你想啊，现在那么多AI模型，训练一次成本多高啊，电费服务器啥的。MobileLLM-R1这种用“穷人的办法”都能干翻“富人的孩子”（指数据量少的模型打败数据量大的），那不正说明了一条新路子吗？估计就是数据没那么“口水化”了，专门挑那些“硬核”的题库、代码库、论文集来喂，让模型一开始就学精髓，不走弯路。或者就是训练算法特别牛逼，能把每一份数据的价值都榨干。毕竟AI最终是要落地的，越省钱越高效的方案，肯定越受欢迎。