谷歌发布Gemma 4:端侧AI能力增强,直面Qwen挑战

谷歌开源Gemma 4,主打端侧AI推理和Agent应用,可在手机离线运行,并采用商业友好的Apache 2.0许可证。

原文标题:谷歌重磅开源Gemma 4!手机离线跑 Agent、还降内存,Qwen 被拉进正面对决

原文作者:AI前线

冷月清谈:

谷歌发布了最新的开源模型系列Gemma 4,该系列模型专为复杂推理和Agent工作流设计,并采用商业友好的Apache 2.0许可证。Gemma 4 提供了四种不同规格的模型,包括针对移动和物联网设备优化的E2B和E4B,以及面向IDE、编程助手和Agent工作流的26B MoE和31B稠密模型。值得关注的是,E2B和E4B模型能够在手机等端侧设备上离线运行,而26B MoE模型则通过巧妙的架构设计,在保证运行速度的同时,兼顾了大模型的知识储备。Gemma 4在推理能力、多模态支持、上下文窗口大小、编码和智能体能力等方面均有显著提升,旨在推动本地AI的发展。此外,Gemma 4采用Apache 2.0许可证,降低了商业使用门槛,并提供了多种推理和微调路径,方便开发者使用。尽管有网友测评结果显示Qwen3.5-27B略优于Gemma 4 31B,但Gemma 4在端侧AI和Agent应用方面的潜力仍然备受期待。

怜星夜思:

1、Gemma 4 强调在端侧设备上的运行能力,这对未来 AI 应用的发展会带来哪些影响?
2、Gemma 4 采用了 Apache 2.0 许可证,这对商业应用来说意味着什么?和其他开源协议相比,有什么优势?
3、文章中提到 Gemma 4 在某些基准测试中表现优于参数大 20 倍的模型,你觉得这种“以小博大”的现象,对 AI 模型的发展方向有什么启示?

原文内容

整理 | 褚杏娟

刚刚,谷歌正式发布 Gemma 4,称“这是其迄今为止最智能的开放模型系列”。该系列面向复杂推理与智能体工作流设计,采用商业许可的 Apache 2.0 许可证开源。

Gemma 4 提供四种规格:Effective 2B(E2B)、Effective 4B(E4B)、26B 混合专家模型(MoE)和 31B 稠密模型(Dense)。

在端侧,E2B 和 E4B 模型针对移动和物联网设备优化,推理时分别激活约 20 亿和 40 亿参数,以降低内存和电量消耗。据介绍,这两个模型已与谷歌 Pixel 团队、高通和联发科等硬件厂商合作,可在手机、Raspberry Pi、NVIDIA Jetson Nano 等设备上离线运行,延迟接近零。

与此同时,研究人员表示,26B MoE 模型有一个巧妙之处:在推理任务中,它只会激活 38 亿参数,因此既能保持较高运行速度,又不会牺牲大模型所具备的深厚知识储备。

26B 和 31B 模型提供面向 IDE、编程助手和 Agent 工作流的高级推理能力。模型针对消费级 GPU 进行了优化,让学生、研究人员和开发者能够把自己的工作站变成以本地优先为核心的 AI 服务器。

谷歌 DeepMind 研究人员 Clement Farabet 和 Olivier Lacombe 表示,在 Gemma 4 上,他们设法进一步压榨出了更多“单位参数智能”,让这些模型能够显著实现“越级发挥”。例如,31B Dense 版本目前在行业标准榜单的开源模型中排名第三。

Gemma 4 建立在与 Gemini 3 相同的架构基础之上,旨在处理复杂推理任务,并支持在工作站、智能手机等低功耗设备上本地运行的自主 AI Agent。这次关键提升包括:

  • 推理能力更强:该系列所有模型都面向复杂推理任务进行了优化,并提供可配置的“思考”模式;

  • 多模态能力进一步扩展:所有模型都支持文本和图像输入,其中图像支持可变宽高比和不同分辨率;E2B 和 E4B 还原生支持视频与音频输入;

  • 上下文窗口更大:端侧模型为 128K,较大模型(26B/31B)最高 256K;

  • 编码与智能体能力增强:模型在代码能力基准测试中有明显提升,同时内置函数调用支持,能够更好地驱动自主 Agent 执行任务;

  • 原生支持系统提示词:Gemma 4 内置了 system role 支持,让对话结构更清晰,也更容易控制模型行为。

Farabet 和 Lacombe 解释称,每个 Gemma 4 模型都更适合用于运行 AI Agent。此前几代 Gemma 模型往往需要开发者额外调整设计,才能与其他软件工具交互;而 Gemma 4 已原生支持函数调用和结构化 JSON 输出、原生系统指令以及超过 140 种语言。这意味着,开发者可以用它们来驱动自主 Agent,与第三方工具交互,并执行多步骤任务规划。

根据 Arena AI 文本排行榜(截至 2026 年 2 月 1 日),31B 模型排名全球开放模型第 3 位,26B MoE 模型排名第 6 位。

谷歌表示,Gemma 4 在部分基准测试中表现优于参数大 20 倍的模型。

不过,有网友自己测算结果 Qwen3.5-27B 要略优于 Gemma 4 31B。

还有网友评价道,“最让人眼前一亮的部分在于:一共四种尺寸,全部都为 Agent 场景做好了准备,而且全都可以在本地运行。我们一直都在呼吁,需要那种不用每次‘思考’都把数据传回云端的模型。现在他们终于听进去了,而且给出的东西甚至比预期还多。”

开源 + 本地,谷歌扩大优势

此次,Gemma 4 继续采用 Apache 2.0 许可证,允许商业使用、自由修改和部署。谷歌称,这一选择旨在给予开发者对数据、基础设施和模型的完全控制权,支持本地或云端环境的安全部署。这消除了其他一些 AI 模型在商业使用上的诸多限制,或会成为企业应用开发者的理想选择。

此外,谷歌还详细列出了使用各种大小的 Gemma 4 模型版本运行推理所需的大致 GPU 或 TPU 内存。

Gemma 4 在架构设计上进一步兼顾了效率与部署现实。E2B 和 E4B 中的 “E” 指的是“有效参数”,这两款小模型采用了 PLE(每层嵌入)技术,以提升端侧部署时的参数利用效率。需要注意的是,PLE 虽然不会增加模型层数,但会为每层解码器中的每个 token 配置独立的小型嵌入,因此模型实际加载到内存中的静态权重,往往会高于“有效参数规模”表面上对应的占用。

26B 版本采用了混合专家(MoE)架构,虽然生成时每个 token 实际只会激活约 40 亿参数,但为了保证路由和推理速度,全部 260 亿参数仍需提前载入内存,所以它的实际显存需求更接近稠密 26B 模型,而不是 4B 模型。

此外,官方给出的内存估算通常只覆盖静态模型权重本身,并不包含运行框架、上下文窗口和 KV Cache 带来的额外显存开销;如果进一步进行微调,显存需求还会明显高于推理阶段,具体占用则取决于开发框架、批量大小,以及采用全参数微调还是 LoRA 等参数高效微调方案。

这次发布再次凸显了谷歌想要主导“本地 AI”产业的雄心。Constellation Research 分析师 Holger Mueller 表示,即便是较大规模的 Gemma 4,也小到足以在单张图形处理器上运行,因此它们非常适合边缘场景以及那些对低延迟和数字主权有较高要求的应用。

他认为,“谷歌正在扩大自己在 AI 领域的领先优势,不只是依靠 Gemini,也包括通过 Gemma 4 家族这样的开放模型。这些模型对于构建 AI 开发者生态非常重要,也将帮助公司切入不同设备形态下的功能型和垂直行业应用场景。谷歌在此前发布 Gemma 3 时已经树立了很高的门槛,因此这次发布也承载了很多期待。”

现在,开发者可以通过谷歌云直接访问这些模型,也可以在 Hugging Face、Kaggle 和 Ollama 上获取模型及其开放权重。Android 开发者可在 AICore Developer Preview 中试用智能体工作流原型。

此外,谷歌提供了多种推理和微调路径,包括:Hugging Face、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM 和 NeMo、LM Studio、Unsloth、SGLang、Cactus、Docker、MaxText、Tunix、Keras。云上部署支持 Vertex AI、Cloud Run、GKE、Sovereign Cloud 及 TPU 加速服务。

Gemma 4 开箱支持 NVIDIA(从 Jetson Nano 到 Blackwell GPU)、AMD GPU(通过开源 ROCm™ 栈)以及 Google Cloud TPU。谷歌方面称,新模型采用与谷歌专有模型相同等级的基础设施安全协议,适用于企业和主权机构的高标准安全与可靠性要求。

参考链接:

https://deepmind.google/models/gemma/gemma-4/-and-e4b

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

会议推荐

QCon 全球软件开发大会·2026 北京站将于 4 月 16 日 -18 日正式举办。本届大会以“Agentic AI 时代的软件工程重塑”为主题,聚焦 100+ 重磅议题,汇聚来自阿里、腾讯、字节跳动、小米、百度等一线科技企业与创新团队的技术专家,围绕 AI 工程化、系统架构与研发模式演进展开深入探讨。更多详情可扫码或联系票务经理 18514549229 进行咨询。

今日荐文

图片
你也「在看」吗?👇

Apache 2.0就是非常宽松的开源协议,可以闭源商用,简直是开发者的福音!其他协议可能限制更多,比如GPL协议,修改后的代码也得开源,对于想靠这个赚钱的公司来说就很麻烦。当然,宽松的协议也意味着你出了问题得自己负责,作者不承担任何责任。但总体来说,Apache 2.0绝对是业界良心!

Agent这概念最近挺火的,感觉啥都能往Agent上靠。不过说实话,现在很多所谓的“AI Agent”,其实就是一些简单的自动化脚本,离真正的智能还差得远。Gemma 4的原生支持肯定是好事,但别指望它能一夜之间把所有Agent都变成“超级智能”。

个人觉得,Agent的关键还是在于“智能”二字。模型需要能够理解复杂的用户意图、自主学习和进化、处理各种异常情况。这些都需要模型具备更强大的推理能力、知识储备和泛化能力。希望Gemma 4在这方面能有更大的突破。

有没有可能未来我们手机上的AI,就相当于一个本地服务器,我们可以自己训练、部署模型,完全掌控自己的数据?感觉有点像 Linux 系统的精神,让 AI 更开放、更自由。

从学术角度来看,本地运行和 Agent 能力的结合,是 AI 从“云端计算”走向“边缘计算”的重要一步。这需要我们在模型压缩、算法优化、安全隐私等方面进行更深入的研究。同时,这也对硬件提出了更高的要求,需要更强大的算力和更低的功耗。未来,边缘计算可能会成为AI发展的新方向。

我认为Gemma 4的原生Agent支持,将会加速AI Agent在各个领域的落地。以前很多AI Agent都停留在概念验证阶段,难以真正应用到实际场景中。现在有了Gemma 4,开发者可以更方便地构建AI Agent,并将其与各种工具和服务集成起来,实现更复杂的功能。例如,可以利用AI Agent自动处理邮件、管理日程、预订机票等等。

我认为最大的变革在于AI的普及化和民主化。Gemma 4的开源,就像是把AI技术从象牙塔里搬到了大街上,让更多人有机会接触和使用。这种趋势会激发更多的创新应用,加速AI技术在各行各业的渗透。例如,在教育领域,老师可以利用本地运行的AI模型为学生提供个性化的辅导;在医疗领域,医生可以利用AI模型进行辅助诊断,提高效率和准确性。

这很正常啊!参数大小只是影响模型性能的因素之一,模型架构、训练数据、训练方法等等都会影响最终的性能。有时候,精心设计的模型架构和高质量的训练数据,比单纯增加参数量更有效。就像学习一样,不是书读得越多就越厉害,关键在于理解和应用。

我觉得这说明模型评估基准的选择很重要。不同的基准测试侧重点不同,所以同一个模型在不同的基准测试上的表现可能差异很大。我们在选择模型的时候,应该根据自己的实际需求,选择最相关的基准测试结果作为参考,而不是盲目追求高分。

这个问题问得好!我觉得本地AI最大的优势就是隐私和速度。以后很多事情不用上传到云端,直接在手机或者其他设备上就能搞定,比如语音助手、图像处理、甚至一些简单的编程任务,都会更快更安全。想象一下,在没有网络的情况下,你的手机依然可以流畅地帮你处理各种事务,是不是很酷?

这其实也反映了AI领域的一个趋势:模型越来越注重效率。与其追求更大的参数量,不如在模型架构和训练方法上下功夫,提高模型的“单位参数智能”。这样可以在有限的计算资源下,获得更好的性能,这对于AI的普及非常重要。

补充一下,除了参数量,还要关注模型的量化和优化情况。有些模型虽然参数量很大,但是经过量化和优化后,可以在较小的硬件上运行。此外,还要关注模型的训练数据和训练方法,这些都会影响模型的性能。我认为可以优先考虑在自己同等算力条件下,跑分最高的,这样可以保证效费比最高。

问题2:文章提到 Gemma 4 在部分基准测试中表现优于参数大 20 倍的模型,但也有网友测评结果显示 Qwen3.5-27B 略优于 Gemma 4 31B。如何看待这种差异?基准测试在评估 AI 模型时有哪些局限性?

答:这让我想起了“No Free Lunch”定理,没有一个模型能在所有任务上都表现最好。Gemma 4 和 Qwen 各有所长,适合不同的应用场景。基准测试的局限性在于:

1. 过度优化: 为了在基准测试中获得好成绩,开发者可能会过度针对特定数据集进行优化,导致模型在实际应用中表现不佳。
2. 缺乏泛化能力: 基准测试通常只覆盖有限的任务类型,无法全面评估模型的泛化能力。
3. 忽视人工评估: 有些能力,例如创造性写作、对话理解等,很难用客观指标进行评估,需要人工进行评估。

这个问题很有意思!我觉得云端AI不会消失,反而会更专注于训练和知识库的维护。本地AI就像是前线士兵,负责快速响应和执行;云端AI则是后方指挥部,提供战略支持和知识储备。两者分工协作,才能发挥最大效能。

Apache 2.0 许可证简直是开发者的福音!它允许商业使用、修改和分发,基本上没有太多限制。这意味着企业可以放心地将 Gemma 4 集成到自己的产品中,而不用担心版权问题。与其他许可证(比如 GPL)相比,它更加宽松,更利于商业化。

第三方测评只能作为参考,具体情况还得具体分析。Qwen3.5-27B和Gemma 4 31B各有优势,可能在不同的任务上表现不同。就像买手机一样,不能只看跑分,还得看拍照、续航、系统体验等等。选择模型也是一样,要看哪个更符合自己的需求。

这说明模型的大小并不是决定性能的唯一因素,更重要的是模型的架构设计和训练方法。与其追求更大的参数量,不如在模型效率上下功夫,用更少的资源实现更好的效果。这对于算力有限的团队来说,无疑是一个好消息。

“以小博大”的现象,也提醒我们不要陷入“大力出奇迹”的思维陷阱。AI 模型的发展,需要更加注重创新和优化,而不是一味地堆砌参数。我觉得未来的研究方向,可能更多地会集中在模型压缩、知识蒸馏等方面。

从法律角度来说,选择合适的开源协议至关重要。Apache 2.0 的明确性和完整性,降低了潜在的法律风险。企业在使用开源模型之前,一定要仔细研究相关的许可证条款,避免踩坑。

和其他开源协议比如GPL相比,Apache 2.0 更加灵活。GPL 要求修改后的代码也必须开源,这对于一些有商业机密保护需求的公司来说是不可接受的。Apache 2.0 则没有这个限制,更加符合商业利益。