Meta回应Llama 4质疑:否认测试集训练,强调部署优化

Meta回应Llama 4在测试集上训练的质疑,强调模型是重大进步,期待与社区合作释放其价值。LMArena数据显示Llama 4在特定任务上表现良好,但用户对其性能仍存疑。

原文标题:Llama 4在测试集上训练?内部员工、官方下场澄清,LeCun转发

原文作者:机器之心

冷月清谈:

Meta针对Llama 4模型发布后用户反馈不佳的情况进行了澄清,否认了使用测试集进行训练的指控,并解释可能的问题在于部署策略尚未完全优化。同时,Meta强调Llama 4在特定任务上表现出色,LMArena也展示了其在对话和代码生成等方面的优势案例。然而,用户和业界对Llama 4的实际性能仍存疑虑,对其训练策略和评测标准也存在争议,最终效果还有待大规模部署和进一步验证。

怜星夜思:

1、Meta 否认 Llama 4 使用测试集训练,你觉得大模型在训练过程中,如何保证测试集的纯洁性,避免数据污染,从而更客观地评估模型性能?
2、Llama 4 在不同用户和平台上的表现差异较大,这反映了大模型部署和应用中哪些挑战?对于这种情况,你有什么好的解决方案或建议?
3、文章提到Meta 对 Llama 4 进行了对话优化,这是否意味着通用大模型需要针对特定任务进行定制化?定制化会带来哪些好处和坏处?

原文内容

机器之心报道

编辑:张倩、泽南

大家翘首以盼的 Llama 4,用起来为什么那么拉跨?


Llama 4 这么大的节奏,Meta 终于绷不住了。


本周二凌晨,Meta Gen AI 团队负责人发表了一份澄清说明(针对外界质疑「在测试集上训练」等问题),大佬 Yann LeCun 也进行了转发。



很高兴能让大家用上 Llama 4,我们已经听说人们使用这些模型取得了很多出色的成果。尽管如此,我们也听到一些关于不同服务质量参差不齐的报告。由于我们在模型准备就绪后就推出了它们,因此我们预计所有公开部署都需要几天时间才能完成。我们将继续努力修复错误并吸引合作伙伴。


我们还听说有人声称 Llama 4 在测试集上进行训练,这根本不是事实,我们永远不会这样做。我们愿意理解为:人们看到的不稳定是由于需要稳定部署。相信 Llama 4 模型是一项重大进步,期待与社区的持续合作以释放它们的价值。


当前 Llama 4 性能不佳是被部署策略给拖累了吗?


权威的大模型基准平台 LMArena 也站出来发布了一些 Llama 4 的对话结果,希望部分解答人们的疑惑。



链接:https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles


可以看到,其中很多同问题的回答上,不论是跟哪家大模型比,Llama 4 的效果都是更好的。


但这究竟是模型真的好,还是 Meta 为了拯救口碑而进行的一系列公关活动?我们需要一起来梳理一下这一事件的发展脉络。


Llama 4:买家秀 vs. 卖家秀


Llama 4 是 Meta 在 4 月 6 日发布的模型,分为 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth 这几个版本。Meta 官方宣称新模型可以实现无与伦比的高智商和效率。



在大模型竞技场(Arena),Llama 4 Maverick 的总排名第二,成为第四个突破 1400 分的大模型。其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一;大幅超越了自家 Llama 3 405B,得分从 1268 提升到了 1417;风格控制排名第五。




这样的成绩让开源社区以为又迎来一个新王,于是纷纷下载尝试。但没想到的是,这个模型并没有想象中好用。比如网友 @deedydas 发帖称,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基准测试中表现不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准测试专注于编程任务,例如代码生成和代码补全。


另外还有网友指出,Llama 4 的 OCR、前端开发、抽象推理、创意写作等问题上的表现能力也令人失望。(参见《》)


于是就有人质疑,模型能力这么拉跨,发布时晒的那些评分是怎么来的?


内部员工爆料

Meta 工程师原贴对线


在关于该模型表现反差的猜测中,「把测试集混入训练数据」是最受关注的一个方向。


在留学论坛「一亩三分地」上,一位职场人士发帖称,由于 Llama 4 模型始终未达预期,「公司领导层建议将各个 benchmark 的测试集混合在 post-training 过程中」,ta 因无法接受这种做法而辞职,并指出「Meta 的 VP of AI 也是因为这个原因辞职的」(指的是在上周宣布离职的 Meta AI 研究副总裁 Joelle Pineau)。



由于发帖者没有实名认证信息,我们无法确认这一帖子的可靠性,相关信息也缺乏官方证实和具体证据。


不过,在该贴的评论区,有几位 Meta 员工反驳了楼主的说法,称「并没有这种情况」,「为了刷点而 overfit 测试集我们从来没有做过」。




其中一位还贴出了自己的真名 ——「Licheng Yu」。领英资料显示,Licheng Yu 是 Facebook AI 的研究科学家主管,已经在 Meta 全职工作了五年多,其工作内容包括支持 Llama 4 的后训练 RL。


如前文所诉,Meta Gen AI 团队负责人也发推反驳了用测试数据训练模型的说法。


不过,有些测试者发现了一些有意思的现象。比如普林斯顿大学博士生黄凯旋指出,Llama 4 Scout 在 MATH-Perturb 上的得分「独树一帜」,Original 和 MATH-P-Simple 数据集上的表现差距非常大(两个数据集本身非常相似,后者只在前者的基础上进行了轻微扰动),这点很令人惊讶。



这是没有做好数据增强的问题吗?或许也可以认为他们的模型为了标准测试做了「过度」优化?


虽然在数学方面,这个问题还没有答案。不过,在对话方面,Meta 的确指出他们针对对话做了优化。他们在公告中提到,大模型竞技场上的 Maverick 是「实验性聊天版本」,与此同时官方 Llama 网站上的图表也透露,该测试使用了「针对对话优化的 Llama 4 Maverick」。



针对这个版本问题,大模型竞技场官方账号也给出了回应,称 Meta 的做法是对平台政策的误读,应该更清楚地说明他们的模型是定制模型。此外,他们还将 Meta 在 HuggingFace 上发布的版本添加到了竞技场进行重新测试,结果有待公布。


大模型竞技场公布对战数据


最后,不论训练策略和 Deadline 的是与非,Llama 4 是否经得起考验,终究还是要看模型本身的实力。目前在大模型竞技场上,Llama 4 展示了一系列问题上的 good case。其中不仅有生成方案的:



也有生成网页代码的:   



看起来,Llama 4 也支持更多种类的语言。



在推特的评论区里我们可以看到,人们对于这一系列展示仍然褒贬不一。


虽然 LM Arena 表示未来会将 HuggingFace 上的 Llama 4 版本引入进行比较,但已有人表示,现在我已经很难相信大模型竞技场了。


无论如何,在人们的大规模部署和调整之后,我们会很快了解 Llama 4 的真实情况。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我有个大胆的想法,能不能用“乐高”的方式来构建大模型?我们可以将大模型分解成多个功能模块,每个模块负责特定的任务。然后,根据用户的需求,像拼乐高一样,将不同的模块组合起来,形成定制化的模型。这样,既可以降低模型的开发成本,又可以提高模型的灵活性和可扩展性。当然,这也需要解决模块之间的接口标准化和协同工作等问题。但我觉得,这是一个值得探索的方向。

这事儿吧,就跟食品安全一样,得靠监管!首先,得建立一套完善的数据管理流程,明确谁能接触数据,怎么使用数据,出了问题谁负责。其次,可以引入第三方审计机制,定期对训练数据和测试数据进行独立审查,确保数据的合规性。再者,要加强行业自律,建立黑名单制度,对于违规使用数据的机构和个人,要坚决抵制。当然了,最重要的是,要有敬畏之心,不要为了追求短期利益而牺牲数据的长期价值。

这就像买了一辆新车,有人开得飞起,有人却频频熄火。除了车本身,驾驶技术也很重要。对于大模型来说,prompt engineering 就是驾驶技术。不同的prompt,效果可能天差地别。所以,我的建议是:1. 提供丰富的prompt模板和示例,帮助用户快速上手;2. 鼓励用户分享自己的prompt经验,形成社区效应;3. 针对特定任务,开发专门的prompt优化工具;4. 持续研究prompt的内在机制,探索更有效的prompt设计方法。总之,要让用户掌握“驾驭”大模型的技巧。

我觉得这个问题也暴露了当前大模型评测体系的局限性。我们不能只看冷冰冰的benchmark分数,更要关注模型在实际应用场景中的表现。可以考虑引入众包评测机制,让更多用户参与到模型评测中来,收集更丰富、更真实的用户反馈。同时,建立多维度的评测指标体系,综合考虑模型的性能、效率、鲁棒性、安全性和伦理道德等因素。只有这样,才能更全面、更客观地评估大模型的价值。

大模型的部署确实是个老大难问题。我觉得主要挑战在于算力资源、软硬件环境和用户需求的多样性。针对这种情况,我的建议是:1. 模型小型化和轻量化,降低对算力的要求;2. 采用容器化技术,实现模型在不同环境下的快速部署;3. 提供灵活的API接口,满足不同用户的定制化需求;4. 加强模型监控和调优,及时发现和解决性能问题。当然,最理想的情况是,能有一个统一的大模型服务平台,让用户可以像使用水电一样方便地使用大模型。

我有个脑洞,能不能用对抗训练来解决这个问题?我们可以构建一个“数据污染检测器”,专门用来识别训练集中是否存在与测试集相似的数据。然后,训练模型的同时,也训练检测器,让模型学会抵抗数据污染。这样,即使真的有少量测试集数据混入训练集,模型也能具备一定的鲁棒性,不至于在测试时表现得过于“兴奋”。

这个问题问得好!数据纯洁性是大模型评估的基石。我觉得可以从这几个方面入手:首先,严格的数据来源控制,明确哪些数据可以用于训练,哪些只能用于测试。其次,采用技术手段进行数据去重和清洗,避免测试集中的数据意外混入训练集。最后,可以引入“数据指纹”技术,为每个数据样本打上唯一的标记,在训练过程中实时监控,一旦发现测试集数据泄露,立即告警并采取措施。总而言之,需要制度和技术双管齐下,才能最大程度保证数据的纯洁性。

对于这个问题,我想引用一句名言:“没有完美的模型,只有最适合的模型。”通用大模型是基础,定制化是提升。如果把大模型比作食材,那么通用大模型就是米面粮油,定制化就是烹饪技巧。不同的菜肴需要不同的烹饪技巧,不同的任务也需要不同的模型调整。但无论如何,食材的品质是基础。如果通用大模型本身质量不高,再多的定制化也难以弥补。所以,在追求定制化的同时,不能忽视通用大模型的基础研发。

我觉得这就像裁缝做衣服,量体裁衣才能穿得更舒服。通用大模型就像一块布料,虽然用途广泛,但要真正发挥其价值,还需要根据特定任务进行剪裁和缝制。定制化的好处显而易见:可以提高模型的准确率、效率和用户体验。但坏处也很明显:会增加模型的开发成本和维护难度,并且可能导致模型的泛化能力下降。所以,关键在于找到一个平衡点,既要充分利用通用大模型的基础能力,又要根据特定任务进行精细化调整。