Meta开源MobileLLM-R1:小参数模型在特定领域实现性能新突破

Meta开源MobileLLM-R1,不到1B参数,用1/10训练数据量,在数学编程等领域性能超越竞品,小模型部署潜力巨大。

原文标题:Meta开源MobileLLM-R1模型,不到1B参数,用1/10的训练就超越了Qwen3

原文作者:机器之心

冷月清谈:

Meta AI 近日发布了全新的高效推理模型系列 MobileLLM-R1,包含基础模型和最终模型版。该系列最大的 MobileLLM-R1 950M 模型,参数低于1B,却展现出令人瞩目的性能。

MobileLLM-R1 与现有全开源模型相比,性能提升显著。最引人注目的是,它仅使用了约2T高质量token进行预训练,总训练token量少于5T,但在MATH、GSM8K、MMLU和LiveCodeBench等基准测试中,其性能与使用36T token训练的Qwen3 0.6B相当或更优。特别是在MATH基准测试上,MobileLLM-R1 950M的准确率比Olmo 1.24B高出约五倍,比SmolLM2 1.7B高出约两倍,并在编码测试中刷新了完全开源模型的最高水平。

这些模型并非通用聊天模型,而是监督微调 (SFT) 模型,专门针对数学、编程(Python、C++)和科学问题进行训练。 Meta不仅开源了模型本身,还发布了完整的训练方案和数据源,以确保可重复性和促进后续研究。

此次发布在机器学习社区引发热议,因为它证明了小体量模型在特定领域内也能实现极高的效率和性能。这意味着训练成本更低廉,便于快速尝试最新技术;更重要的是,模型体量的下降使其能够适配更多的端侧设备,推动AI在更广阔的应用场景落地。 该项目由三位华人研究科学家Zechun Liu、Ernie Chang和Changsheng Zhao领衔研发。

怜星夜思:

1、MobileLLM-R1这类小巧高效的模型出来后,大家觉得以后我们日常生活里,**哪些设备或场景最有可能先体验到这种 AI 的厉害之处呢?** 比如手机、智能家居还是啥?会有什么新奇的应用出现吗?
2、文章里说MobileLLM-R1只用了不到5T的训练token,就实现了这么好的效果,尤其对比竞品训练数据量小很多。大家觉得**这种“少而精”的训练方式,到底是不是未来小模型的主流方向?** 是因为数据筛选更严格,还是模型架构有特别优化?
3、MobileLLM-R1是SFT模型,专门针对数学、编程这些领域优化。这听起来很专业,但如果它不是通用聊天模型,大家觉得**这种“专精型”AI,在哪些方面会有优势,又会在哪些方面遇到瓶颈呢?** 会不会以后每个领域都搞一个这样的专用AI?

原文内容

机器之心报道

编辑:泽南、杨文

与其他全开源模型相比,性能提升2-5倍。


小参数模型也进入了 R1 时代,这次开源出新技术的是 Meta。


本周五,Meta AI 团队正式发布了 MobileLLM-R1。



  • HuggingFace 链接:https://huggingface.co/collections/facebook/mobilellm-r1-68c4597b104fac45f28f448e

  • 试用链接:https://huggingface.co/spaces/akhaliq/MobileLLM-R1-950M


这是 MobileLLM 的全新高效推理模型系列,包含两类模型:基础模型 MobileLLM-R1-140M-base、MobileLLM-R1-360M-base、MobileLLM-R1-950M-base 和它们相应的最终模型版。


它们不是通用的聊天模型,而是监督微调 (SFT) 模型,专门针对数学、编程(Python、C++)和科学问题进行训练。


除了模型本身之外,Meta 还发布了完整的训练方案和数据源,以确保可重复性并支持进一步的研究。


值得注意的是,该系列参数最大的 MobileLLM-R1 950M 模型仅使用约 2T 高质量 token 进行预训练,总训练 token 量少于 5T,但在 MATH、GSM8K、MMLU 和 LiveCodeBench 基准测试中,其性能与使用 36T token 进行训练的 Qwen3 0.6B 相当或更佳。



与现有的完全开源模型相比,尽管参数规模明显更小,MobileLLM-R1 950M 模型在 MATH 基准上的准确率也比 Olmo 1.24B 模型高出约五倍,比 SmolLM2 1.7B 模型高出约两倍。此外,MobileLLM-R1 950M 在编码基准测试中的表现远超 Olmo 1.24B 和 SmolLM2 1.7B ,在完全开源模型中创下了新的最高水平。


Token 效率的比较如下:



后训练比较:



模型架构:




MobileLLM-R1 的发布引起了机器学习社区的讨论。人们欢迎通义、Meta 等顶尖大模型团队基于小体量模型的探索。这一方向的训练成本较为低廉,可以更加方便尝试各类最新论文提出的技术,更重要的是,模型体量的下降也意味着它可以覆盖更多端侧设备,实现更大面积的落地。


随着训练成本普遍下降,我们将会得到更好的模型。


背后三位华人作者


在 MobileLLM-R1 系列发布的同时,背后的作者们也正式亮相,他们表示,该工作的研发时间有一年之久。该项目由华人领衔。


Zechun Liu



Zechun Liu 是 Meta AI 的研究科学家,专注于大模型和基础模型的高效部署与优化。


她的研究涉及大语言模型的预训练与后训练,神经网络架构设计与搜索,量化、剪枝与稀疏性,知识蒸馏以及高效的视觉 - 语言模型等,目标是在计算资源有限的环境中实现高性能模型的推理和部署。


2016 年,她在复旦大学获得本科学位,2019 年至 2021 年在卡内基梅隆大学担任访问学者,导师为 Marios Savvides 教授和 Eric Xing(邢波)教授。2021 年 6 月获得香港科技大学的博士学位,师从 Kwang-Ting Tim CHENG 教授。


Zechun Liu 在顶级会议和期刊上发表了 20 多篇论文,其论文引用量达到了数千次。


Ernie Chang


Ernie Chang 是 Meta AI 的研究科学家,专注于自然语言处理、多模态学习和高效模型部署等领域。



他于 2023 年 2 月加入 Meta,参与了多个前沿项目的研究和开发。


在他的研究中,Ernie Chang 参与了多个重要的项目和论文。例如,他是《Agent-as-a-Judge: Evaluate Agents with Agents》一文的共同作者,该论文提出了一种新的评估方法,通过代理模型对其他代理模型进行评估,从而提高评估效率和准确性。


此外,他还参与了《MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》的研究,该研究致力于优化小语言模型,以适应移动设备上的应用需求。


Ernie Chang 的研究兴趣包括多语言处理、多模态系统等。


Changsheng Zhao(赵常盛)



Changsheng Zhao 是 Meta AI 的研究科学家,专注于自然语言处理、深度学习和大语言模型的高效部署与优化。


他本科毕业于北京大学,后在哥伦比亚大学攻读硕士学位,毕业后去了三星美国研究员担任研究员,2021 年加入 Meta。



在 Meta,Changsheng Zhao 参与了多个前沿研究项目,主要集中在模型量化、神经网络架构和多模态系统等领域。 部分代表性工作包括:


  • ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization:探讨极低比特量化在大语言模型中的缩放定律,帮助平衡模型大小与准确率。

  • Llama Guard 3-1B-INT4:参与开发 Meta 的开源 Llama Guard 模型变体,这是一个紧凑高效的 1B 参数 INT4 量化版本,于 2024 年 Meta Connect 活动中开源,用于 AI 安全和内容过滤。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

优势很明显啊,就是“术业有专攻”!比如我是程序员,我需要一个能准确帮我改Python代码、推导数学公式的AI,而不是一个只能跟我聊天的花瓶。这种专精型AI能在它的领域里做到极致,速度快,出错少,还能在本地跑不用联网。但缺点也多啊,你让它去写诗、画画、或者跟你八卦明星,它肯定就歇菜了。它就只懂它的那点专业知识。我觉得将来应该会是“大模型+小模型”的组合拳吧,大模型负责聊天、创意这类泛领域的事,小模型负责各种专业活儿,感觉这才是最实用的。

我觉得最直接的就是我们手里的手机啊!现在手机上的AI好多还是要联网才能用,MobileLLM-R1这种能跑在本地的,以后手机里的计算器,或者一些学习APP,直接就能变超强的数理编程小助教,不用联网也能搞定难题。还有就是智能音箱,现在回答复杂问题还是有点卡顿或者答不对,如果本地化能力强了,可能就不再是简单的“播放音乐”了,而是能辅导孩子写作业那种。再大胆点,无人机、VR/AR眼镜这些对实时性要求高的设备,如果能内置这种AI,肯定体验会好一大截。想想看,戴着AR眼镜就能实时得到代码bug提示,那得多方便?

这不就是AI界的“偏科生”吗?数理化竞赛全国第一,语文英语不及格那种!优势就是——你扔给它个解方程的或者找代码bug的活儿,它给你咻的一下就做出来了,快准狠,还能离线跑,简直是学霸的电子脑!但你让它跟你聊聊最近的电影、点评一下时尚潮流,它可能就只能回答“您提到的问题不属于我的训练范畴”了。所以,就像我们不会指望一个数学家去写诗一样,我们也得清楚这种AI的能力边界。未来的AI世界,估计就是既有“全能型选手”(大模型),也有各种“单科状元”(SFT小模型),各司其职,组成一个“AI班级”,挺好的!

对于“这种‘专精型’AI,在哪些方面会有优势,又会在哪些方面遇到瓶颈呢?”的讨论,MobileLLM-R1作为SFT模型,其核心优势在于深度优化和高效率。优势体现在:高垂直领域的准确性和专业性(如特定编程语言的bug修复、复杂数学问题的符号推理),资源消耗低(小模型、低能耗、易部署于端侧设备),以及更快的响应速度和更强的隐私保护(本地运行减少数据上传)。但其瓶颈也显而易见:泛化能力弱,无法处理训练领域之外的开放性问题;用户体验受限,不能进行通用聊天或跨领域知识问答;部署灵活性不高,如果需要新的专业领域,往往需要重新训练或大幅微调。至于未来是否每个领域都搞一个专用AI,我认为这会是一个分布式AI系统的趋势:核心是通用大模型提供基础智能,而众多小而精的SFT模型则作为专业插件,在各自擅长的领域提供极致性能。这样既能利用通用模型的广度,又能发挥专用模型的深度和效率。

关于“MobileLLM-R1这种‘少而精’的训练方式,到底是不是未来小模型的主流方向?”我认为它确实揭示了小模型发展的一个重要趋势。这背后可能涉及几个关键因素:一是高质量数据筛选和去噪:相比于追求海量无序数据,聚焦于领域内的高质量、高信息密度数据,能让模型在更少的token量上习得更有效的知识。二是高效的数据混合策略和课程学习:在训练过程中对不同类型数据进行优化配比,并可能采用逐步提升难度或聚焦特定技能的训练顺序。三是模型架构的针对性优化:虽然文章没有详细展开,但MobileLLM-R1的架构很可能针对其目标任务(数学、编程)进行了精细调整,比如更高效的注意力机制、编码器-解码器结构优化等。四是蒸馏或知识迁移技术:可能从更大的模型中蒸馏知识,或者通过多任务学习使其在有限数据上达到更高性能。总之,‘少而精’并非放弃数据量,而是强调数据质量和训练策略的智能化。对于资源有限的端侧部署而言,这无疑是极具前景的方向,但对于通用大模型,海量数据依然是构建世界模型的基石。

这不就是教育界常说的“死记硬背不如理解精髓”吗?以前是“题海战术”,拿海量数据硬砸,看谁能记住的知识点多。现在MobileLLM-R1告诉我们,“选择好题型,理解透彻解题思路,比做一万道重复题更有效!”。可能他们团队有“AI高考状元培养秘籍”,知道怎么把知识点高效地灌输给模型。说不定以后AI培训班也开始分“大模型通识班”和“小模型精修班”了,哈哈。

哈哈,问这问题,我第一反应就是我们这些苦逼的程序员!以后谁还用Stack Overflow啊,直接手机里装个MobileLLM-R1,敲代码的时候实时帮你找bug、优化代码、甚至生成测试用例,想想就香!什么?你说通用聊天?聊天那种花里胡哨的交给云端呗,我这写代码解数学题的,要的是真·硬核·效率!以后出差坐飞机没网了,也能安心写代码敲公式,这不就是程序员的梦想吗!感觉离手腕上的AI教练不远了。

针对“MobileLLM-R1这类小巧高效的模型出来后,哪些设备或场景最有可能先体验到这种 AI 的厉害之处?”这个问题,从技术趋势看,边缘计算和嵌入式AI将是主要受益者。想象一下,未来手机上的AI助手能够更精准地理解复杂指令,处理本地数据,例如实时的代码辅助、复杂的数学问题求解器,甚至是在没有网络连接时也能提供高质量的专业支持。智能家居设备如语音助手、智能音箱,可能不再仅仅是简单的命令执行者,而是能提供更深层次的专业知识问答和推理。车规级芯片上的AI则可以实现更精细的自动驾驶辅助、车内智能交互,尤其是在处理高精度传感器数据和实时路径规划时,本地化的高效推理能显著提升响应速度和安全性。此外,工业物联网中的故障诊断、医学影像分析的初步筛选,也可能借此实现更高效率的端侧部署。最关键的是,这种本地化处理可以大幅提升用户隐私保护。

我觉得肯定是个大方向!你想啊,现在那么多AI模型,训练一次成本多高啊,电费服务器啥的。MobileLLM-R1这种用“穷人的办法”都能干翻“富人的孩子”(指数据量少的模型打败数据量大的),那不正说明了一条新路子吗?估计就是数据没那么“口水化”了,专门挑那些“硬核”的题库、代码库、论文集来喂,让模型一开始就学精髓,不走弯路。或者就是训练算法特别牛逼,能把每一份数据的价值都榨干。毕竟AI最终是要落地的,越省钱越高效的方案,肯定越受欢迎。