Meta提出的ExFM框架,通过解耦师生模型、创新辅助头和学生适配器,成功将万亿参数大模型应用于工业级广告推荐,实现性能持续提升。
原文标题:GPT4规模大模型落地,Meta提ExFM框架:万亿参数基础大模型的工业级落地成为可能
原文作者:机器之心
冷月清谈:
怜星夜思:
2、文章中提到,辅助头(Auxiliary Head)的主要作用是解耦真实标签和 FM 预测,从而避免偏差传递。那么,为什么传统蒸馏方法中,将两者通过同一头部融合会导致偏差传递?
3、ExFM 框架在 Transfer Scaling Law 方面有什么创新?为什么说它开启了 "foundation model for RecSys" 领域的新时代?
原文内容

-
规模化大模型及线上模型的迭代部署:ExFM 解耦了教师模型和学生模型的迭代和部署,在接近于 0 服务成本的情况下成功部署万亿级别参数的工业级大模型(类 GPT-4 规模),显著降低了工业界受益于大模型的门槛和成本。ExFM 创新的提出数据增强系统(DAS),使得模型在等待线上用户的真实训练标签(ground-truth label, 如用户最终的点击或购买行为)的时间里完成教师模型的参数更新与相应的伪标签预测,达到对服务延迟没有额外要求。
-
高效的知识迁移转化率:ExFM 创新地提出了辅助头(Auxiliary Head)以及学生适配器(Student Adapter)来解耦教师与学生模型,减少流式数据分布变化对教师模型与学生模型训练过程中引入的偏置对知识迁移的影响,从而提高教师模型到学生模型的知识迁移转化率,并对此进行了相应的理论分析。经验结果表明,这两项新技术在内部以及公开数据上皆取得了 SOTA 的结果。
-
实现 1 到 N 的知识迁移转化:在 ExFM 的赋能下,不同领域、任务、阶段里负责广告排序的线上模型均实现了 SOTA 表现。
-
新型的 Transfer Scaling Law:在 ExFM 的赋能下,当不断迭代和提升基础大模型的模型规模时,其高效的知识转化率使得线上的广告排序模型的性能呈现出连续数年的持续提升(图 1),且增速在不断扩大,展示了一种新型的 Transfer Scaling Law。


-
论文标题:External Large Foundation Model: How to Efficiently Serve Trillions of Parameters for Online Ads Recommendation
-
论文链接:https://arxiv.org/abs/2502.17494
-
广告推荐需在毫秒级响应中从海量候选广告(O (100K))中实时筛选,模型推理延迟将直接影响用户体验。
-
传统知识蒸馏(KD)需联合训练师生模型,显著增加计算成本和线上模型更新迭代的延迟,无法满足工业级模型实时更新的需求。
-
用户与广告数量会出现大规模的实时增减,这导致数据分布持续变化。传统多轮训练易出现过时,具体指的是线上模型更新完成的时间点落后于即时数据到达的时间点而使得大量实时数据无法被纳入训练,导致模型训练后性能不足。并且多轮训练的计算代价高昂,这是因为实时数据的规模异常庞大且与日俱增。
-
教师模型,如基础模型(FM),与垂直模型(VM)间的跨域偏差与新鲜度差异进一步加剧性能衰减。

-
教师模型应该独立于学生模型,即进行外部整理,如图 2(a)所示。
-
教师模型应该像一个基础模型一样满足 1-to-N,即一个教师模型可以帮助多个不同方向的学生模型的性能提升。

-
零额外推理延迟:通过外部蒸馏与数据增强系统(DAS),万亿 FM 的预测离线生成,VM 服务延迟与基线持平。
-
动态适应能力:流式训练与适配器设计使模型持续适应数据分布变化,NE 增益能够随着时间推移以更大增速进行扩大。
-
解耦师生训练:FM 独立于 VM 训练,通过离线生成预测标签作为监督信号,避免联合训练的计算开销。
-
1:N 资源共享:FM 聚合多个 VM 的数据进行训练,以「基础模型」形式服务多个垂直场景,显著摊薄构建成本。
-
DAS 系统设计:通过分布式快照管理(Zeus)与数据流水线优化,实现 FM 预测的实时记录与高效分发,确保 VM 训练数据始终包含最新 FM 知识。

-
解耦监督信号:真实标签由服务头处理,FM 预测由辅助头处理,阻断偏差传播路径。
-
梯度/标签缩放技术:通过放大 FM 预测的梯度影响与标签幅值,解决广告点击数据的长尾分布难题。

-
动态校正机制:通过小型 MLP 网络实时调整 FM 预测,使其适配 VM 的当前数据分布。
-
理论保障:文中给出理论分析表明,适配器可将模型偏差降低,显著优于传统方法。
-
FM 与 VM 均采用单轮流式训练,每日处理超 3000 亿样本,模型参数逐日迭代更新。
-
系统支持分钟级快照切换,确保服务高可用性。
-
内部场景中,3.2 万亿参数的 FM 使 VM 的归一化熵(NE)持续降低,性能增益随训练数据量增长呈类指数上升(图 1)。
-
公开数据集上(表 1),ExFM 在不同 FM-VM 组合均取得性能的提升。

-
单一 FM 可同时服务广告系统的召回、粗排、精排多阶段 VM(图 6),NE 增益达 0.11%-0.25%。
-
在跨域(表 4)与多任务(表 5)场景中,ExFM 均显著优于无 FM 基线,验证其通用性。


-
辅助头(AH)贡献主要性能增益,使学生模型 NE 降低 4%(图 7)。
-
学生适配器(SA)在 FM 更新延迟时仍能维持 0.08% 的 NE 增益(图 8),但其效果依赖 FM 的持续迭代(图 9)。

