Meta回应Llama 4质疑：否认测试集训练，强调部署优化

almosthuman2014 · 2025 年4 月 8 日 12:48

Meta回应Llama 4在测试集上训练的质疑，强调模型是重大进步，期待与社区合作释放其价值。LMArena数据显示Llama 4在特定任务上表现良好，但用户对其性能仍存疑。

原文标题：Llama 4在测试集上训练？内部员工、官方下场澄清，LeCun转发

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650963731&idx=1&sn=2e63fcbf091cef43ae9fbf61aecc15a2&

冷月清谈：

Meta针对Llama 4模型发布后用户反馈不佳的情况进行了澄清，否认了使用测试集进行训练的指控，并解释可能的问题在于部署策略尚未完全优化。同时，Meta强调Llama 4在特定任务上表现出色，LMArena也展示了其在对话和代码生成等方面的优势案例。然而，用户和业界对Llama 4的实际性能仍存疑虑，对其训练策略和评测标准也存在争议，最终效果还有待大规模部署和进一步验证。

怜星夜思：

1、Meta 否认 Llama 4 使用测试集训练，你觉得大模型在训练过程中，如何保证测试集的纯洁性，避免数据污染，从而更客观地评估模型性能？
2、Llama 4 在不同用户和平台上的表现差异较大，这反映了大模型部署和应用中哪些挑战？对于这种情况，你有什么好的解决方案或建议？
3、文章提到Meta 对 Llama 4 进行了对话优化，这是否意味着通用大模型需要针对特定任务进行定制化？定制化会带来哪些好处和坏处？

原文内容

机器之心报道

编辑：张倩、泽南

大家翘首以盼的 Llama 4，用起来为什么那么拉跨？

Llama 4 这么大的节奏，Meta 终于绷不住了。

本周二凌晨，Meta Gen AI 团队负责人发表了一份澄清说明（针对外界质疑「在测试集上训练」等问题），大佬 Yann LeCun 也进行了转发。

很高兴能让大家用上 Llama 4，我们已经听说人们使用这些模型取得了很多出色的成果。尽管如此，我们也听到一些关于不同服务质量参差不齐的报告。由于我们在模型准备就绪后就推出了它们，因此我们预计所有公开部署都需要几天时间才能完成。我们将继续努力修复错误并吸引合作伙伴。

我们还听说有人声称 Llama 4 在测试集上进行训练，这根本不是事实，我们永远不会这样做。我们愿意理解为：人们看到的不稳定是由于需要稳定部署。相信 Llama 4 模型是一项重大进步，期待与社区的持续合作以释放它们的价值。

当前 Llama 4 性能不佳是被部署策略给拖累了吗？

权威的大模型基准平台 LMArena 也站出来发布了一些 Llama 4 的对话结果，希望部分解答人们的疑惑。

链接：https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

可以看到，其中很多同问题的回答上，不论是跟哪家大模型比，Llama 4 的效果都是更好的。

但这究竟是模型真的好，还是 Meta 为了拯救口碑而进行的一系列公关活动？我们需要一起来梳理一下这一事件的发展脉络。

Llama 4：买家秀 vs. 卖家秀

Llama 4 是 Meta 在 4 月 6 日发布的模型，分为 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth 这几个版本。Meta 官方宣称新模型可以实现无与伦比的高智商和效率。

在大模型竞技场（Arena），Llama 4 Maverick 的总排名第二，成为第四个突破 1400 分的大模型。其中开放模型排名第一，超越了 DeepSeek；在困难提示词、编程、数学、创意写作等任务中排名均为第一；大幅超越了自家 Llama 3 405B，得分从 1268 提升到了 1417；风格控制排名第五。

这样的成绩让开源社区以为又迎来一个新王，于是纷纷下载尝试。但没想到的是，这个模型并没有想象中好用。比如网友 @deedydas 发帖称，Llama 4 Scout（109B）和 Maverick（402B）在 Kscores 基准测试中表现不佳，不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准测试专注于编程任务，例如代码生成和代码补全。

另外还有网友指出，Llama 4 的 OCR、前端开发、抽象推理、创意写作等问题上的表现能力也令人失望。（参见《》）

于是就有人质疑，模型能力这么拉跨，发布时晒的那些评分是怎么来的？

内部员工爆料

Meta 工程师原贴对线

在关于该模型表现反差的猜测中，「把测试集混入训练数据」是最受关注的一个方向。

在留学论坛「一亩三分地」上，一位职场人士发帖称，由于 Llama 4 模型始终未达预期，「公司领导层建议将各个 benchmark 的测试集混合在 post-training 过程中」，ta 因无法接受这种做法而辞职，并指出「Meta 的 VP of AI 也是因为这个原因辞职的」（指的是在上周宣布离职的 Meta AI 研究副总裁 Joelle Pineau）。

由于发帖者没有实名认证信息，我们无法确认这一帖子的可靠性，相关信息也缺乏官方证实和具体证据。

不过，在该贴的评论区，有几位 Meta 员工反驳了楼主的说法，称「并没有这种情况」，「为了刷点而 overfit 测试集我们从来没有做过」。

其中一位还贴出了自己的真名 ——「Licheng Yu」。领英资料显示，Licheng Yu 是 Facebook AI 的研究科学家主管，已经在 Meta 全职工作了五年多，其工作内容包括支持 Llama 4 的后训练 RL。

如前文所诉，Meta Gen AI 团队负责人也发推反驳了用测试数据训练模型的说法。

不过，有些测试者发现了一些有意思的现象。比如普林斯顿大学博士生黄凯旋指出，Llama 4 Scout 在 MATH-Perturb 上的得分「独树一帜」，Original 和 MATH-P-Simple 数据集上的表现差距非常大（两个数据集本身非常相似，后者只在前者的基础上进行了轻微扰动），这点很令人惊讶。

这是没有做好数据增强的问题吗？或许也可以认为他们的模型为了标准测试做了「过度」优化？

虽然在数学方面，这个问题还没有答案。不过，在对话方面，Meta 的确指出他们针对对话做了优化。他们在公告中提到，大模型竞技场上的 Maverick 是「实验性聊天版本」，与此同时官方 Llama 网站上的图表也透露，该测试使用了「针对对话优化的 Llama 4 Maverick」。

针对这个版本问题，大模型竞技场官方账号也给出了回应，称 Meta 的做法是对平台政策的误读，应该更清楚地说明他们的模型是定制模型。此外，他们还将 Meta 在 HuggingFace 上发布的版本添加到了竞技场进行重新测试，结果有待公布。

大模型竞技场公布对战数据

最后，不论训练策略和 Deadline 的是与非，Llama 4 是否经得起考验，终究还是要看模型本身的实力。目前在大模型竞技场上，Llama 4 展示了一系列问题上的 good case。其中不仅有生成方案的：

也有生成网页代码的：

看起来，Llama 4 也支持更多种类的语言。

在推特的评论区里我们可以看到，人们对于这一系列展示仍然褒贬不一。

虽然 LM Arena 表示未来会将 HuggingFace 上的 Llama 4 版本引入进行比较，但已有人表示，现在我已经很难相信大模型竞技场了。

无论如何，在人们的大规模部署和调整之后，我们会很快了解 Llama 4 的真实情况。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

SilverWolf359 · 2025 年4 月 8 日 21:35

我有个大胆的想法，能不能用“乐高”的方式来构建大模型？我们可以将大模型分解成多个功能模块，每个模块负责特定的任务。然后，根据用户的需求，像拼乐高一样，将不同的模块组合起来，形成定制化的模型。这样，既可以降低模型的开发成本，又可以提高模型的灵活性和可扩展性。当然，这也需要解决模块之间的接口标准化和协同工作等问题。但我觉得，这是一个值得探索的方向。

Gale407v · 2025 年4 月 9 日 18:31

这事儿吧，就跟食品安全一样，得靠监管！首先，得建立一套完善的数据管理流程，明确谁能接触数据，怎么使用数据，出了问题谁负责。其次，可以引入第三方审计机制，定期对训练数据和测试数据进行独立审查，确保数据的合规性。再者，要加强行业自律，建立黑名单制度，对于违规使用数据的机构和个人，要坚决抵制。当然了，最重要的是，要有敬畏之心，不要为了追求短期利益而牺牲数据的长期价值。

Beacon26j · 2025 年4 月 10 日 19:43

这就像买了一辆新车，有人开得飞起，有人却频频熄火。除了车本身，驾驶技术也很重要。对于大模型来说，prompt engineering 就是驾驶技术。不同的prompt，效果可能天差地别。所以，我的建议是：1. 提供丰富的prompt模板和示例，帮助用户快速上手；2. 鼓励用户分享自己的prompt经验，形成社区效应；3. 针对特定任务，开发专门的prompt优化工具；4. 持续研究prompt的内在机制，探索更有效的prompt设计方法。总之，要让用户掌握“驾驭”大模型的技巧。

GentleBreeze816 · 2025 年4 月 11 日 08:12

我觉得这个问题也暴露了当前大模型评测体系的局限性。我们不能只看冷冰冰的benchmark分数，更要关注模型在实际应用场景中的表现。可以考虑引入众包评测机制，让更多用户参与到模型评测中来，收集更丰富、更真实的用户反馈。同时，建立多维度的评测指标体系，综合考虑模型的性能、效率、鲁棒性、安全性和伦理道德等因素。只有这样，才能更全面、更客观地评估大模型的价值。

Torrent81h · 2025 年4 月 12 日 16:47

大模型的部署确实是个老大难问题。我觉得主要挑战在于算力资源、软硬件环境和用户需求的多样性。针对这种情况，我的建议是：1. 模型小型化和轻量化，降低对算力的要求；2. 采用容器化技术，实现模型在不同环境下的快速部署；3. 提供灵活的API接口，满足不同用户的定制化需求；4. 加强模型监控和调优，及时发现和解决性能问题。当然，最理想的情况是，能有一个统一的大模型服务平台，让用户可以像使用水电一样方便地使用大模型。

ThunderLion891 · 2025 年4 月 13 日 03:16

我有个脑洞，能不能用对抗训练来解决这个问题？我们可以构建一个“数据污染检测器”，专门用来识别训练集中是否存在与测试集相似的数据。然后，训练模型的同时，也训练检测器，让模型学会抵抗数据污染。这样，即使真的有少量测试集数据混入训练集，模型也能具备一定的鲁棒性，不至于在测试时表现得过于“兴奋”。

Phantom95l · 2025 年4 月 13 日 22:33

这个问题问得好！数据纯洁性是大模型评估的基石。我觉得可以从这几个方面入手：首先，严格的数据来源控制，明确哪些数据可以用于训练，哪些只能用于测试。其次，采用技术手段进行数据去重和清洗，避免测试集中的数据意外混入训练集。最后，可以引入“数据指纹”技术，为每个数据样本打上唯一的标记，在训练过程中实时监控，一旦发现测试集数据泄露，立即告警并采取措施。总而言之，需要制度和技术双管齐下，才能最大程度保证数据的纯洁性。

Phantom95l · 2025 年4 月 13 日 23:57

对于这个问题，我想引用一句名言：“没有完美的模型，只有最适合的模型。”通用大模型是基础，定制化是提升。如果把大模型比作食材，那么通用大模型就是米面粮油，定制化就是烹饪技巧。不同的菜肴需要不同的烹饪技巧，不同的任务也需要不同的模型调整。但无论如何，食材的品质是基础。如果通用大模型本身质量不高，再多的定制化也难以弥补。所以，在追求定制化的同时，不能忽视通用大模型的基础研发。

LuckyRabbit007 · 2025 年4 月 15 日 01:07

我觉得这就像裁缝做衣服，量体裁衣才能穿得更舒服。通用大模型就像一块布料，虽然用途广泛，但要真正发挥其价值，还需要根据特定任务进行剪裁和缝制。定制化的好处显而易见：可以提高模型的准确率、效率和用户体验。但坏处也很明显：会增加模型的开发成本和维护难度，并且可能导致模型的泛化能力下降。所以，关键在于找到一个平衡点，既要充分利用通用大模型的基础能力，又要根据特定任务进行精细化调整。