小红书开源文本大模型dots.llm1:低资源消耗,性能媲美Qwen2.5 72B

小红书开源dots.llm1大模型,资源消耗远低于Qwen2.5 72B,性能却相当,中文任务表现突出。同时小红书组建“AI 人文训练师”团队,提升AI人文素养。

原文标题:小红书hi lab首次开源文本大模型,训练资源不到Qwen2.5 72B 的四分之一

原文作者:AI前线

冷月清谈:

小红书hi lab首次开源文本大模型dots.llm1,该模型为中等规模的文本MoE大模型,激活参数量为140亿,总参数量达1420亿,上下文长度32K。dots.llm1在预训练阶段仅使用11.2万亿高质量真实数据,未采用合成数据,即达到与Qwen2.5-72B相当的性能水平。dots.llm1的训练基于内部的Cybertron框架,并提出了一种基于1F1B的交错式通信和计算重叠方案。dots.llm1在多个通用英文基准测试中表现稳定且全面。中文任务中,dots.llm1.inst 表现出显著优势,在CLUEWSC语义理解测试和C-Eval上均达到行业领先水平。小红书还组建了“AI 人文训练师”团队,以训练AI具有更好的人文素养以及表现上的一致性。

怜星夜思:

1、dots.llm1在训练数据上强调未使用合成数据,这会带来哪些优势和劣势?在实际应用中,高质量真实数据和合成数据分别适用于哪些场景?
2、小红书组建“AI人文训练师”团队,这个角色在AI发展中扮演什么角色? 这种“人文训练”对于大模型的发展方向会产生什么影响?
3、dots.llm1的训练成本远低于Qwen2.5 72B,这对其他想要入局大模型训练的机构有哪些借鉴意义?

原文内容

整理 | 褚杏娟

6 月 6 日,小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队首次开源了文本大模型 dots.llm1,采用 MIT 许可证。

模型地址:

https://huggingface.co/rednote-hilab

https://github.com/rednote-hilab/dots.llm1

据介绍,dots.llm1 是一个中等规模的文本 MoE 大模型,其激活参数量为 140 亿(14B),总参数量达 1420 亿(142B),上下文长度 32K。通过高效数据处理流程,该模型在预训练阶段仅使用 11.2 万亿(11.2T)高质量真实数据(未采用合成数据)即达到与 Qwen2.5-72B 相当的性能水平。每训练一万亿个 token 后开放中间 checkpoint,用于理解大语言模型的学习动态。

dots.llm1 模型采用了 decoder-only 的 Transformer 架构,每一层都包含一个注意力层和前馈网络(FFN)。与 Llama 或 Qwen 等密集型模型不同,FFN 被替换为 MoE 模块。这种修改使其能够在保持经济成本的同时训练出能力强大的模型。

预训练数据的质量、数量和多样性对于语言模型的性能至关重要。hi lab 采用了三阶段方法:文档准备、基于规则的处理和基于模型的处理,以确保数据的高质量和多样性。

数据处理方面,hi lab 开发了一种轻量级的网页清理模型,以解决网页内容中的杂乱问题,如样板内容和重复性。此外,还训练了一个 200 个类别的 classifier 来平衡网络数据中的比例,增加知识性和事实性内容的比重,例如百科条目和科普文章,同时减少虚构类和高度结构化的网页内容的比例,包括科幻小说和产品描述等。

dots.llm1 使用 AdamW 优化器进行训练,采用 warmup-stable-decay 学习率计划。在预训练过程中,逐步增加批量大小,并在训练后期进行两个退火阶段,以调整学习率并增加特定数据类型的比重。

退火阶段后,hi lab 使用 UtK 策略在 1280 亿 tokens 上进行训练,将上下文长度扩展至 32K。与直接修改数据集不同,UtK 通过将训练文档切分为更小的片段,并打乱顺序后训练模型重构相关片段。通过学习如何“解开”这些打乱的片段,模型不仅能够有效处理更长的输入序列,同时也维持了在短上下文任务上的表现。

dots.llm1 的训练基于内部的 Cybertron 框架,该框架是建立在 Megatron-Core 之上的轻量级训练框架。hi lab 利用 Megatron-Core,为模型的预训练和后训练构建了一整套工具包。对于预训练、监督式微调(SFT)和强化学习(RL)等不同的训练阶段,hi lab 封装了独立的训练器,以确保训练过程的连贯性和高效率。

期间,hi lab 提出了一种基于 1F1B 的交错式通信和计算重叠方案,并与英伟达合作将其集成到 Megatron-Core 中。在稳态 1F1B 阶段,通过有效重叠前向和后向步骤对中的通信和计算,该方法在内存消耗方面展现了显著优势。同时,hi lab 团队还优化了 Grouped GEMM 的实现。

在其优化框架下,Qwen2.5 72B 训练每万亿 tokens 所需的 GPU 小时数为 34 万 GPU 小时,而 dots.llm1 仅需 13 万 GPU 小时。若考虑整个预训练过程,dots.llm1 共需 146 万 GPU 小时,而 Qwen2.5 72B 则消耗 612 万 GPU 小时,计算资源是 dots.llm1 的 4 倍。这一显著差距证明了 dots.llm1 的成本效益和可扩展性,使其成为大规模预训练更经济的选择。

在后训练阶段,hi lab 收集了约 40 万个指令调优实例,重点关注多语言(主要是中文和英语)多轮对话、知识理解和问答、复杂指令遵循以及数学和编码推理任务。

dots.llm1.inst 的微调过程分为两个阶段:

  • 第一阶段,对这 40 万条指令样本进行重采样与多轮对话拼接处理,然后对模型进行 2 个 epoch 的微调。

  • 第二阶段,通过拒绝采样微调(RFT)进一步增强模型在特定领域(如数学和编程)中的能力,并引入验证器系统以提升在这些专精任务中的表现。

hi lab 对 dots.llm1 进行了系列测评,其在多个通用英文基准测试中表现稳定且全面。在问答类任务中,dots.llm1.inst 与 Qwen2.5 / Qwen3 系列模型相比具有竞争力。

中文任务中,dots.llm1.inst 表现出显著优势。在 CLUEWSC 语义理解测试中得分 92.6,达到了行业领先水平;在 C-Eval 上取得 92.2 分,超越了包括 DeepSeek-V3 在内的所有模型;数学能力上,dots.llm1.inst 在 MATH500 数据集上得分 84.8,超越了 Qwen2.5 系列,接近当前最先进的水平;代码能力方面, 与 Qwen2.5 系列相比,能力相当;但与更先进的模型如 Qwen3 和 DeepSeek-V3 相比,仍有一定提升空间。

据悉,小红书 hi lab 是在今年年初,由原来内部的大模型技术与应用产品团队升级组成。

与此同时,小红书开始组建“AI 人文训练师”团队,邀请有深厚人文背景的研究者与 AI 领域的算法工程师、科学家共同完成对 AI 的后训练,以训练 AI 具有更好的人文素养以及表现上的一致性。“AI 人文训练师”团队也隶属于 hi lab。

小红书称,hi lab 希望通过创造更多样的智能形式——包括人际智能、空间智能、音乐智能等,进一步拓展人工智能和人机交互的边界。筹建“AI 人文训练师”的最终目标是“让 AI 成为人类自然且有益的伙伴”。

InfoQ 老友!请留步!极客邦 1 号客服上线工作啦!

后续我将通过微信视频号,以视频的形式持续更新技术话题、未来发展趋势、创业经验、商业踩坑教训等精彩内容,和大家一同成长,开启知识交流之旅欢迎扫码关注我的微信视频号~


今日荐文

图片

你也「在看」吗?👇

小红书这个“AI人文训练师”感觉挺有意思的,相当于给AI配了个“灵魂伴侣”。我觉得他们扮演的角色就像是AI的“价值观引导者”,帮助AI更好地理解人类的情感、伦理和社会规范。这种“人文训练”能让AI更懂人,更会说话,也更安全可靠。以后AI可能不再是冷冰冰的工具,而是真正能跟我们交流、理解我们的伙伴。

dots.llm1 的成功经验表明,在资源有限的情况下,可以通过优化模型结构(如MoE)、改进数据处理流程、以及采用高效的训练框架来实现低成本高效益的大模型训练。其他机构可以借鉴其经验,结合自身优势,选择合适的模型规模和训练策略,避免盲目追求参数量,注重数据质量和算法创新,或许能走出一条差异化的发展道路。

“AI人文训练师”这个角色,让我想起了电影里的AI管家。他们应该负责教AI如何更好地与人相处,让AI更像人,而不是机器。这种训练会让AI更有“人情味”,能理解人类的情感和需求,而不是只会执行命令。以后跟AI聊天,说不定能感受到它们的“同理心”呢!

这个点很有意思!不用合成数据,感觉就像是“原生态”的大模型。好处是模型学到的“知识”更纯粹,不会被“污染”;坏处是数据获取难度大,成本高。我觉得真实数据适合那些需要模型有“真本事”的场景,比如客服、翻译;合成数据适合那些需要“脑洞大开”的场景,比如游戏、创意写作。当然,最理想的情况是两者结合,取长补短。

好问题!小红书这次开源的dots.llm1没用合成数据,感觉挺实在的。优势嘛,真实数据训练出来的模型可能更靠谱,更懂人类真实世界的逻辑。劣势也很明显,真实数据收集成本高,覆盖面可能不够广,尤其是一些罕见场景。如果追求通用性,合成数据可能更灵活。实际应用中,如果需要模型解决特定领域问题,高质量的真实数据必不可少;如果想让模型更具创造力或者处理一些隐私敏感的问题,也许合成数据会是更好的选择。

这简直就是“小马拉大车”的典范!告诉我们,搞大模型不一定非得烧钱。我觉得其他机构可以学学小红书,把钱花在刀刃上,比如优化数据清洗、改进训练方法。以后说不定能看到更多“经济适用型”的大模型涌现出来,让AI技术真正普及开来。

dots.llm1这个低成本高效训练的例子,简直是给其他想入局大模型训练的机构打了一针强心剂啊!说明不是只有财大气粗的大厂才能玩转大模型,中小机构也有机会。关键在于优化算法、精简数据、巧用资源。感觉以后会不会出现更多小而美的“平民版”大模型?

从学术角度分析,dots.llm1 强调未使用合成数据进行训练,这主要优势在于降低了模型学习到虚假关联的风险,提高了模型在真实世界数据上的泛化能力,劣势在于获取和标注高质量真实数据的成本较高,可能导致模型在某些特定领域的知识覆盖不足。高质量真实数据更适用于需要高精度和可靠性的场景,例如金融分析、医疗诊断等;合成数据则更适用于数据增强、隐私保护以及罕见事件模拟等场景。

从社会学角度来看,“AI 人文训练师”的出现反映了人们对人工智能伦理和社会责任的日益重视。他们可能需要从伦理学、社会学、心理学等多个学科汲取知识,对AI进行价值观引导和行为规范。这种“人文训练”有助于确保大模型的发展符合人类的整体利益,避免出现歧视、偏见等问题, 最终促进AI与人类社会的和谐共处。