Meta Llama 4 多次被超越,开源大模型领域优势不再?

Meta 最新 Llama 4 受到DeepSeek、英伟达等挑战,引发对Meta开源大模型领导地位的讨论,暴露了Meta在模型研发和市场策略上的困境。

原文标题:Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了

原文作者:AI前线

冷月清谈:

文章指出,Meta 最新发布的 Llama 4 模型在性能上受到 DeepSeek 和英伟达等竞品的挑战,引发了关于 Meta 在开源大模型领域领导地位的讨论。Llama 4 发布后,因“作弊”事件、缺乏配套工具以及在推理能力上的不足而受到批评,引发了信任危机。文章深入探讨了 Llama 4 发布前后的一系列事件,包括Meta内部对标DeepSeek,以及社区对Llama 4 实际性能的质疑和测试。同时,文章也分析了 Llama 4 在架构设计上的创新,以及模型在本地部署和性能优化方面面临的挑战,并引用了多方评测结果,对 Llama 4 的实际能力进行了更全面的评估,强调了在模型快速发展过程中,应理性看待评测结果,关注模型在实际应用中的潜力。

怜星夜思:

1、Llama 4 被指 "作弊",专门针对评测平台优化,你怎么看待这种行为?这种 "打榜" 行为对开源社区和用户会产生什么影响?
2、文章提到 Llama 4 在长文本处理方面表现不佳,但也有人认为其在模型设计方面有创新。你认为我们应该如何评估一个大模型的好坏?仅仅依靠跑分和基准测试是否足够?
3、Meta 一直是开源大模型的积极推动者,但 Llama 4 的表现似乎不尽如人意。你认为 Meta 在开源大模型领域面临哪些挑战?未来的发展方向是什么?

原文内容

整理 I 褚杏娟

当地时间 4 月 8 日,英伟达宣布推出其最新大语言模型 Llama3.1 Nemotron Ultra 253B。该模型基于 Meta 的 Llama-3.1-405B-Instruct 构建,并利用创新的神经架构搜索(NAS)技术进行了深度优化。其性能超越了最近发布的 Llama4,如 Behemoth、Maverick,并在 Hugging Face 平台上开源,引起 AI 社区广泛关注的同时,也再次“暴击”了 Meta。

可查看:
https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

Meta 在大模型开源领域一直是作为领头羊的存在,但上周末发布的 Llama 4 却一度让 Meta 陷入尴尬。

Abacus.AI 首席执行官 Bindu Reddy 表示,“如果没有 DeepSeek 和 Qwen,开源就会落后很多。”还有网友评价道,“Meta 颓势尽显,从 Llama3.1 起,技术上 insight 就慢慢落后了。回顾往昔,Llama2 还真是最巅峰。”Llama 4 的翻车还引发了大家对 Qwen 3 的期待。

目前,大家对 Llama 4 的批评主要集中在以下三点:

1. 突然发布,没有配套工具,哪怕是因为时间紧张,也还是太草率;

2. LM Arena“作弊”事件,最为严重,极大损害了公众的信任;

3. 用户更加追逐“推理模型”,Llama 4 在推理上介绍较少,整体显得没那么突出。

现在,是否可以真的说 Meta 4 已经“折戟”了?

“作弊”事件引发信任危机

上周末,Meta 发布了两个新的 Llama 4 模型:Scout (16 个专家,17B 激活参数)和 Maverick(128 个专家,17B 激活参数)。发布不久后,AI 社区就开始流传一个传闻:Meta 有意让 Llama 4 更擅长跑分测试,并掩盖其真实限制。

YouTube 博主的实测结果

“作弊”事件的主角是是 Maverick。Meta 宣称,Maverick 能在“广泛被引用的基准测试中”击败 GPT-4o 和 Gemini 2.0 Flash。Maverick 很快就在 AI 基准测试平台 LMArena 上夺得了第二名的位置。

LMArena 是一个由用户对比多个系统输出并投票评选最佳结果的平台。Meta 称 Maverick 的 ELO 分数为 1417,高于 OpenAI 的 4o,仅次于 Gemini 2.5 Pro。(ELO 分数越高,表示模型在对战中获胜的频率越高。)

这一成绩让 Meta 的开源模型 Llama 4 看上去有实力挑战 OpenAI、Anthropic 和 Google 等公司最先进的闭源模型。然而,多位 AI 研究人员在仔细查阅文档后发现了一些不寻常的地方。在文档的细节部分,Meta 承认:用于 LMArena 测试的 Maverick 并不是公开提供的版本。根据 Meta 自身的资料显示,他们在 LMArena 上部署的是一个“对话性能优化”的实验性聊天版本的 Maverick。

根据外媒 TechCrunch 的说法,LMArena 从来都不是评估 AI 模型性能最可靠的标准。但过去 AI 公司通常不会专门去定制或微调模型以在 LMArena 上获得更高分,至少没人承认这么做过。

问题在于:如果你为一个基准测试定制了模型,但并不公布这个定制版本,而是只发布一个“原味”版本(vanilla variant),这会让开发者很难准确预测这个模型在具体应用场景中的真实表现。而且,这种做法也具有误导性。

理想情况下,尽管现有基准测试本身也有很多缺陷,但它们起码应该能提供一个关于单个模型在不同任务上的能力概览。

事实上,已经有研究人员指出,公开发布的 Maverick 模型和 LM Arena 上托管的那个版本行为差异非常明显。LM Arena 的那个版本经常使用大量表情符号,而且回答特别啰嗦。

LMArena 在 Llama 4 发布两天后在 X 发文表示:“Meta 对我们政策的理解与我们对模型提供方的期望不一致。Meta 应该更明确地说明 ‘Llama-4-Maverick-03-26-Experimental’ 是一个为迎合人类偏好而定制的模型。为此,我们正在更新排行榜政策,以加强对公平、可复现评测的承诺,避免未来再次出现类似混淆。”

虽然 Meta 的做法并未明确违反 LMArena 的规则,该平台仍表达了对“操纵评测系统”的担忧,并采取措施防止“过拟合”和“基准测试泄漏”。

当公司在排行榜上提交特别调优的模型版本,而向公众发布的是另一个版本时,像 LMArena 这样的排行榜作为现实表现参考的意义就会被削弱。同时,公众也会对公司后续大模型版本的测评结果保持怀疑。

Meta 发言人 Ashley Gabriel 回应:“我们会尝试各种定制版本。”她表示,“‘Llama-4-Maverick-03-26-Experimental’ 是我们试验的一种聊天优化版本,在 LMArena 上的表现也很不错。我们现在已经发布了开源版本,接下来将看看开发者如何根据自身需求定制 Llama 4。”

对此,Meta 生成式 AI 副总裁 Ahmad Al-Dahle 在 X 上发文否认了这些质疑:“我们也听到了有关我们使用测试集进行训练的指控——这根本不是事实,我们绝不会这么做。我们最合理的理解是,大家看到的质量差异是因为目前的实现版本仍需进一步稳定。”

这次事件揭示出,Meta 渴望被视为 AI 领头羊——即使这意味着需要用“打榜技巧”操作规则,但其确实面临着研发困境。

“DeepSeek 效应”的后续?

不少人注意到,Llama 4 的发布时间很奇怪——周六通常不是发布重大 AI 新闻的时间。有人在 Threads 上问为什么要在周末发布,Meta CEO 马克·扎克伯格回应说:“因为那时它准备好了。”可见,选择这个时间点发布是扎克伯格同意的。

Llama 是 Meta 最寄予厚望的一款模型,扎克伯格的目标是将其作为全球的行业标准,并在今年实现 10 亿的用户数量。此前,有人猜测 Meta 可能会在 4 月 29 日首次举办的 LlamaCon AI 会议推出 Llama 最新模型。

专注于追踪 AI 模型的 Simon Willison 表示:“这次发布总体上非常令人困惑。模型评分对我来说毫无价值,因为我甚至无法使用那个得分很高的模型版本。”

Meta 发布 Llama 4 的过程并不顺利。根据 The Information 的报道,由于模型未能达到内部预期,Meta 多次推迟发布。内部对这个版本预期尤其高,因为 DeepSeek 开源模型对其带来了很大冲击。

1 月底时有消息称,Meta 的生成式 AI 团队陷入了恐慌状态。“一切始于 DeepSeek V3,它让 Llama 4 在基准测试中落后。”“工程师们正疯狂地剖析 DeepSeek,复制一切能复制的东西。”

这次发布中,Meta 特意提到“Maverick 是同类最佳的多模态模型,在编码、推理、多语言、长上下文和图像基准测试中超越了 GPT-4o 和 Gemini 2.0 等同类模型,并且在编码和推理方面可与规模大得多的 DeepSeek v3.1 相媲美。”

“总体来说,对 Llama 4 来说是有点失望,唯一的惊喜是 Scout 的 10M 上下文窗口,可以处理巨长文本和大视频。但很可惜的是官方 Release Notes 没提到支持中文。”有网友说道。

但在第三方的长上下文测评中,Llama 4 表现并不好。对此,CoreViewHQ 联合创始人兼 CTO Ivan Fioravant 表示,“Llama-4 不可能在 120k 上下文长度下会退化得这么严重。像 Meta 这样的大型 AI 实验室怎么可能在发布中宣称支持 10M 上下文窗口,却在实际使用中表现这么差?我真心希望是某些地方出了 bug 才导致这种情况。”

网友实测,Llama 4 被低估了吗?

“dionysio211”认为,在关于 Llama 4 的讨论中,很多真正重要的内容都被忽视了。最近发布的这些模型,其实在大模型设计方面带来了许多新颖的突破,包括:多模态趋势、新的推理与非推理逻辑设计、各种类型的 MoE(专家混合)结构等。

这些创新让普通用户在“第一印象”上产生了偏差,导致他们误以为模型退步了,而实际上模型正在快速进化。

以 Gemma 3 为例,它的多模态功能在上线时表现非常糟糕,直到现在在很多本地 LLM 平台(如 LMStudio、Ollama、KoboldCPP 等)上都还没有完全优化好。这其实很容易理解。要在现有消费级硬件上挤出更多性能、同时尽快将模型推向公众,涉及到大量变量——其中很重要的一点就是:依赖开源平台去“预判”或“适配”模型发布后的变化

“如果每个新模型都沿用同样的架构,那怎么会有创新呢?”dionysio211 表示,“现在还没有任何主流平台对音频输入做出统一标准,那面对即将推出的“omni 模型”又要怎么支持?我还没看到有哪个平台支持 Phi-4 的 omni 版本。”“再比如 Qwen 2.5 VL 已经发布很久了,可至今大部分本地推理平台还不支持它。”

“从 Mixtral 开始,几乎每一个有新架构的模型在落地时都会遇到各种卡顿和问题。我们应该习惯这种情况,而不是在模型还没跑顺的时候就轻下结论、否定模型本身的价值。”dionysio211 表示,这都是这个行业发展过程的一部分,我们要做的是等待平台支持,而不是急着说模型研发团队“不懂在干什么”。

在 dionysio211 看来,Llama 4 这种模型正是本地 LLM 的未来趋势。它们通过构建高性能的 MoE 架构,绕过了“内存传输带宽”这一大瓶颈,使得模型甚至能在 CPU 上运行,或者至少适配 AMD、Apple 等平台。

如今信息密度已经高到 3B 规模的模型就能完成一年前 24B 才能做到的事情,并且速度甚至比部分云端模型还快。“这是目前少数已知方式中能在本地实现每秒 20+ tokens 且性能接近 Sonnet 3.5、GPT-4 的方案,也可能促使硬件厂商未来在架构上更注重内存通道优化,而不是试图去比拼 VRAM。”

网友“randomfoo2 ”则在 vLLM 做了正式发布并验证了推理精度之后自己做了评测,得到的结论是“还算可以。”结果显示,Scout(17A109B) 的水平大致可以和 Mistral Small 3.1(24B) 和 Gemma 3(27B) 相当;Maverick(17A400B) 的表现大致相当于 GPT-4o 的水平,略微落后于 DeepSeek-V3(37A671B),但激活参数量只有后者的一半。

“Llama 4 的架构很复杂,有不少新特性,但如果你要用 40T token 来训练一个模型,总得经过一系列 sanity check(合理性验证)吧。所以,我认为底模本身其实是没问题的(除非是推理实现上还有 bug)。”randomfoo2 还提到,Llama 3 最初的 IT 版本其实也不怎么样,直到 3.1 才真正打磨出色。

“我觉得 Llama 4 还是很有潜力的,但我会再等等,不着急去微调或深入研究,因为肯定还会有一堆 bug。说真的,我上周才刚在给 Phi 4 写训练器时发现了新 bug。”randomfoo2 说道。”randomfoo2 说道。

网友“dionysio211”则一直在定期查看 vLLM 和 llama.cpp 的提交记录,表示他们现在确实还在不断修复和优化中。“我用 LM Studio 的 Scout 版本试了一下,表现还不错。我在 6800XT 和 7900XT 上用 Vulkan 和 ROCm 大概能跑到 10 tokens/s,社区版本和 Unsloth 的版本表现也差不多。我确实觉得 Scout 应该排名高于 Mistral Small 和 Gemma 3 27B,希望后续发布能进一步打磨这些版本。”

当地时间 4 月 8 日,独立分析人工智能模型和托管提供商 Artificial Analysis 复现了 Meta 声称的 MMLU Pro 和 GPQA Diamond 测试集得分,并声称,“我们依然认为 Scout 和 Maverick 是非常优秀的开源模型,对开放权重 AI 生态具有重要价值。”

这次所有测试均基于 Hugging Face 发布的 Llama 4 权重版本,覆盖多个第三方云平台。其评测结果并未使用提供给 LMArena 的实验版 chat-tuned 模型(Llama-4-Maverick-03-26-Experimental)。做出的改变是接受了 Llama 4 所采用的回答格式 “The best answer is A” 作为有效答案。

AI 研究机构 Epoch 也表示亲自评估了 Llama 4,结果显示:在 GPQA Diamond 测试中,Maverick 和 Scout 的得分分别为 67% 和 52%,与 Meta 报告的 57% 和 69.8% 相近。在 MATH Level 5 测试中,Maverick 和 Scout 的得分分别为 73% 和 62%。结论是:Maverick 与领先的开放式或低成本型号相比具有竞争力,并且均优于 Llama 3。

参考链接:

https://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming

https://x.com/ArtificialAnlys/status/1909624239747182989

https://www.reddit.com/r/LocalLLaMA/comments/1jtzue8/why_we_may_be_wrong_about_llama_4/

https://techstartups.com/2025/01/24/meta-ai-in-panic-mode-as-free-open-source-deepseek-outperforms-at-a-fraction-of-the-cost/

https://www.threads.net/@zuck/post/DIFAsupTS7Z

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。
  活动推荐
AICon 2025 强势来袭,5 月上海站、6 月北京站,双城联动,全览 AI 技术前沿和行业落地。大会聚焦技术与应用深度融合,汇聚 AI Agent、多模态、场景应用、大模型架构创新、智能数据基建、AI 产品设计和出海策略等话题。即刻扫码购票,一同探索 AI 应用边界!

今日荐文

图片
你也「在看」吗?👇

问题:文章提到 Llama 4 在长文本处理方面表现不佳,但也有人认为其在模型设计方面有创新。你认为我们应该如何评估一个大模型的好坏?仅仅依靠跑分和基准测试是否足够?

评估大模型好坏,不能唯跑分论!跑分就像汽车的参数,只能告诉你理论性能,实际开起来舒不舒服还得自己试试。除了跑分,还要考虑以下几点:

* 实际应用场景性能: 在你自己的任务上表现如何?延迟、吞吐量、资源消耗如何?
* 模型的可玩性: 是否容易上手?是否有完善的文档和工具支持?
* 模型的安全性: 是否容易被prompt 注入攻击?是否会生成有害内容?
* 模型的伦理问题: 是否会加剧社会偏见?是否侵犯用户隐私?

总之,跑分只是参考,实际应用才是王道!

问题:Meta 一直是开源大模型的积极推动者,但 Llama 4 的表现似乎不尽如人意。你认为 Meta 在开源大模型领域面临哪些挑战?未来的发展方向是什么?

Meta 在开源大模型领域面临的挑战,我认为主要有以下几点:

1. 商业化压力: 投入巨大资源搞开源,总得考虑怎么变现吧?这方面的探索可能还不够。
2. 竞争压力: 闭源模型效果越来越好,开源模型要保持竞争力,压力山大。
3. 社区维护: 开源不是扔出去就不管了,需要持续维护和更新,需要投入大量人力物力。
4. 安全风险: 开源模型更容易被用于恶意用途,如何防范也是个难题。

未来的发展方向,我觉得可能会是:

* 开源+闭源策略: 核心技术开源,增值服务闭源。
* 垂直领域深耕: 针对特定行业或应用场景进行优化。
* 生态建设: 打造围绕 Llama 的生态系统,吸引更多开发者参与。

问题:Meta 一直是开源大模型的积极推动者,但 Llama 4 的表现似乎不尽如人意。你认为 Meta 在开源大模型领域面临哪些挑战?未来的发展方向是什么?

我觉得 Meta 在开源大模型领域面临的最大挑战是:如何在开源和商业化之间找到平衡。

开源可以吸引更多开发者参与,加速技术创新,但同时也意味着 Meta 无法完全控制模型的使用和传播,可能会被竞争对手利用。如果 Meta 过度追求商业利益,可能会减少对开源的投入,导致社区失去活力。

未来的发展方向可能是:

* 加强与开源社区的合作: 共同开发和维护大模型,分享技术成果。
* 探索新的商业模式: 比如提供增值服务、定制化解决方案等。
* 更加注重模型的安全性和伦理问题: 确保开源大模型不会被用于非法用途。

问题:Llama 4 被指 “作弊”,专门针对评测平台优化,你怎么看待这种行为?这种 “打榜” 行为对开源社区和用户会产生什么影响?

谢邀,人在实验室,刚跑完实验。

从学术角度来看,这种行为属于典型的“基准测试过拟合”(Benchmark Overfitting)。研究人员为了在特定基准测试上获得更好的结果,过度优化模型,使其在这些测试上表现出色,但在实际应用中却表现平平。

这种行为对开源社区的影响是多方面的。首先,它会降低基准测试的可信度,使得社区难以评估不同模型的真实性能。其次,它可能会导致研究人员将更多的精力放在优化基准测试上,而不是提升模型的通用能力。最后,它可能会误导用户,让他们选择不适合自己需求的模型。

因此,我认为开源社区应该建立更加完善的基准测试体系,避免模型过度拟合。同时,用户也应该理性看待基准测试结果,结合实际需求选择合适的模型。

问题:Llama 4 被指 “作弊”,专门针对评测平台优化,你怎么看待这种行为?这种 “打榜” 行为对开源社区和用户会产生什么影响?

这种行为我是不太认可的。专门针对评测平台优化,却不公开优化后的版本,有点像田忌赛马,赢了面子,输了里子。短期内可能提升排名,吸引眼球,但长期来看,会损害 Meta 的信誉,也误导用户对模型真实能力的判断。

对开源社区来说,这种行为可能会引发不信任感,让大家对评测平台的公正性产生怀疑,甚至可能导致“劣币驱逐良币”,真正有实力的模型反而被埋没。对用户来说,如果基于虚假评测结果选择模型,可能会在实际应用中遇到各种问题,浪费时间和资源。

问题:Meta 一直是开源大模型的积极推动者,但 Llama 4 的表现似乎不尽如人意。你认为 Meta 在开源大模型领域面临哪些挑战?未来的发展方向是什么?

谢邀,作为一个关注AI伦理的研究者,我认为Meta在开源大模型领域面临的最大挑战在于如何平衡技术创新与社会责任。

开源的初衷是促进知识共享,加速技术进步。但当AI技术变得越来越强大,其潜在的风险也越来越大。例如,开源大模型可能被用于生成虚假信息、进行网络攻击,甚至被用于开发自主武器。

Meta作为一家大型科技公司,有责任确保其开源技术不会对社会造成危害。未来的发展方向应该是:

1. 加强安全防护: 提高模型的鲁棒性,防止恶意攻击。
2. 建立伦理审查机制: 对模型的用途进行评估,确保符合伦理规范。
3. 推动AI伦理教育: 提高公众对AI风险的认识,促进负责任的AI开发和使用。
4. 加强国际合作: 共同应对AI带来的全球性挑战。

问题:文章提到 Llama 4 在长文本处理方面表现不佳,但也有人认为其在模型设计方面有创新。你认为我们应该如何评估一个大模型的好坏?仅仅依靠跑分和基准测试是否足够?

个人认为,评估大模型应该从以下几个方面入手,形成一个立体的评估体系:

1. 基准测试(Benchmarks): 这是最基础的,可以快速了解模型在各种任务上的表现,但要注意避免过度依赖,防止模型过拟合。
2. 消融实验(Ablation Studies): 考察模型各个模块对整体性能的贡献,帮助我们理解模型的内部机制。
3. 对抗性测试(Adversarial Testing): 评估模型在面对恶意输入时的鲁棒性,比如 prompt 注入攻击。
4. 可解释性分析(Interpretability Analysis): 了解模型做出决策的原因,提高模型的可信度。
5. 实际应用评估(Real-world Evaluation): 将模型部署到实际应用场景中,收集用户反馈,评估模型的实用性。

总而言之,评估大模型需要综合考虑多个因素,既要关注模型的性能指标,也要关注模型的安全性和伦理问题。

问题:文章提到 Llama 4 在长文本处理方面表现不佳,但也有人认为其在模型设计方面有创新。你认为我们应该如何评估一个大模型的好坏?仅仅依靠跑分和基准测试是否足够?

我觉得评估大模型不能只看跑分,就像评价一个人不能只看考试成绩一样。跑分只能作为参考,更重要的是看实际应用场景中的表现。

比如,Llama 4 可能在长文本处理上表现不佳,但在其他方面有优势,比如生成速度、多语言能力、或者特定领域的知识。我们应该根据自己的需求,选择最合适的模型。另外,模型的可解释性、安全性和伦理问题也是重要的评估指标。

总之,评估大模型是一个综合性的过程,需要考虑多个因素,不能简单地用跑分来评判。

问题:Llama 4 被指 “作弊”,专门针对评测平台优化,你怎么看待这种行为?这种 “打榜” 行为对开源社区和用户会产生什么影响?

我个人觉得可以理解,但不太提倡。大公司也是要面子的,尤其是在竞争激烈的AI领域,谁不想自己的模型在榜单上名列前茅呢?适当的优化可以理解为“展示肌肉”,但如果过度优化,甚至弄虚作假,那就本末倒置了。

这种“打榜”行为短期内可能会让一些用户觉得“哇,这个模型好厉害”,但长期来看,如果实际使用体验不好,肯定会适得其反。更重要的是,这种行为会破坏开源社区的信任氛围,让大家觉得评测结果不可靠,以后选择模型时可能更倾向于闭源模型,这对开源生态发展是不利的。