谷歌发布 Gemma 4 12B：16GB 笔记本可本地运行的多模态模型

almosthuman2014 · 2026 年6 月 4 日 17:51

谷歌发布 Gemma 4 12B，主打16GB笔记本本地运行与原生多模态能力。

原文标题：120亿参数跑在16G笔记本上，谷歌Gemma 4新成员杀来了

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651037142&idx=3&sn=4f4b6b166c1ab682a944438f594da763&

冷月清谈：

谷歌在 Gemma 4 系列下载量突破 1.5 亿次后，推出新成员 Gemma 4 12B。该模型定位于轻量边缘模型 E4B 与更强的 26B MoE 之间，主打在较低内存占用下提供接近大模型的推理、多模态和智能体能力。Gemma 4 12B 可在 16GB 显存或统一内存设备上本地运行，并采用 Apache 2.0 许可证开放发布，已支持 LM Studio、Ollama、Google AI Edge 等工具试用。其亮点包括统一架构、原生音频输入、多步推理、草稿模型加速，以及无需独立多模态编码器的视觉和音频处理方式。基准测试显示，它在多项任务上接近 Gemma 4 26B MoE，但内存占用不到后者一半。实测中，12B 在 RTX 4090 上显存占用约 9GB，速度低于 26B-A4B，但表现接近，更适合消费级笔记本本地部署。

怜星夜思：

1、16GB 笔记本本地跑 12B 多模态模型，真的会改变普通用户使用 AI 的方式吗？
2、Gemma 4 12B 去掉独立视觉/音频编码器，把多模态输入直接交给 LLM 主干，这条路线靠谱吗？
3、和 26B-A4B MoE 相比，Gemma 4 12B 更省显存但速度更慢，大家会怎么选？
4、开放许可证加本地多模态能力，会不会让小团队更容易做出端侧 AI 产品？

原文内容

机器之心编辑部

在下载量突破 1.5 亿次之际，谷歌 Gemma 4 系列模型迎来了新的家族成员！

今天，谷歌正式推出 Gemma 4 12B，目标是把具备智能体能力的多模态智能，直接带到笔记本电脑上。

根据介绍，Gemma 4 12B 介于面向边缘设备的 E4B 与能力更强的 26B 混合专家模型（MoE）之间，在更小的内存占用下提供了强大的能力。

另外，Gemma 4 12B 也是谷歌首个支持原生音频输入的中等规模模型。

谷歌 DeepMind 创始人兼 CEO 哈萨比斯，「为庆祝 Gemma 4 下载量突破 1.5 亿次这一重要里程碑，谷歌发布了全新的 Gemma 4 12B 模型！对于这样一个小尺寸模型来说，它的能力非常强大；同时，它也足够轻量，只需 16GB 显存，就能在笔记本电脑上本地运行。」

大家可以用它构建了各种各样的应用，从用于物理辅助的可穿戴机器人手臂，到企业级 AI 安全系统。谷歌也期待看到开发者用这款最新模型创造出更多可能。

此次，Gemma 4 12B 模型具有以下几大特性：

全新的统一架构：不再使用多模态编码器，视觉和音频输入可以直接进入 LLM 主干网络。
更强的推理能力：在基准测试中的表现接近谷歌的 26B 模型，能够支持强大的多步推理和智能体工作流。
适合笔记本本地运行：模型规模足够小，只需要 16GB 显存或统一内存即可在本地运行。
开放且易于获取：采用 Apache 2.0 许可证发布，并支持广泛的开发者生态。
支持草稿模型加速：Gemma 4 12B 配备了多 Token 预测（MTP）草稿模型，可用于降低延迟。

目前，用户可以通过 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent App 以及 LiteRT-LM CLI 等渠道进行试用。

在 GPQA Diamond、BBEH、MMLU Pro、LiveCode Bench、DocVQA、InfoVQA、MMMU Pro 和 MRC v2.8 needle 128k（average）等一系列基准测试中，Gemma 4 12B 的表现接近谷歌更大的 26B MoE 模型，但整体内存占用不到后者的一半。

并且，它的规模足够小，可以在配备 16GB 内存的消费级笔记本电脑上本地运行，从而把强大的多模态体验和智能体能力带到你的个人设备上。

有人在一张 RTX 4090 上本地运行了 Gemma 4 12B 和 Gemma 4 26B-A4B，并给它们布置了同一个任务：在不使用任何库的情况下，用单个文件写出一个自包含的 HTML5 Canvas 动画，并加入真实物理效果。测试包含三个场景：高尔顿板、两个方块与墙面碰撞，以及混沌三重摆。输出结果如下：

Gemma 4 26B-A4B：占用 15GB 显存，生成 6.9k tokens，速度 138 tokens/s
Gemma 4 12B：占用 9GB 显存，生成 8.9k tokens，速度 80 tokens/s

同属 Gemma 4 家族，但 26B-A4B 在三个场景中都胜出，而且运行速度快了约 1.7 倍，它的活跃参数量只有 4B。不过，12B 的表现也非常接近，同时显存占用几乎只有一半。这也让它成为 16GB 笔记本上的理想本地模型。

另外，Gemma 4 12B 最突出的地方在于，它处理视觉和音频输入的方式更加精简。

传统多模态模型通常依赖独立编码器，先把图像和音频转换成模型可理解的表示，再传递给语言模型。但这些分离式编码器会带来额外延迟，也会增加内存占用。因此，谷歌在训练 Gemma 4 12B 时采用了无编码器架构，让音频和视觉输入能够直接整合进模型。

Gemma 4 12B 原生处理多模态输入的方式如下：

视觉：谷歌用一个轻量级嵌入模块替代了 Gemma 4 的视觉编码器。这个模块由一次矩阵乘法、位置嵌入和归一化组成，让 LLM 主干网络接管视觉处理。
音频：音频处理进一步简化。谷歌完全移除了音频编码器，并将原始音频信号投影到与文本 token 相同的维度空间中。

在 Google AI Edge Eloquent App 中，Gemma 4 12B 可以完全离线完成语音输入的转录、格式整理和翻译。

参考链接：

https://x.com/sundarpichai/status/2062257242645393889

https://x.com/demishassabis/status/2062241713398149524

https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Phantom95l · 2026 年6 月 5 日 04:24

回应“16GB 笔记本本地跑 12B”这个问题：我觉得会改变一部分人的习惯，尤其是写代码、整理文档、语音转写这类高频任务。本地模型最大优势不是绝对聪明，而是随手可用、不怕断网、隐私压力小。

CoastalHeron339 · 2026 年6 月 6 日 06:32

说实话，普通用户可能没那么敏感。大多数人还是会打开网页用云端大模型，因为省事。但对开发者、学生、研究人员来说，16GB 能跑起来就很关键了，至少不用先买一台“炼丹炉”。

NobleStag037 · 2026 年6 月 7 日 20:02

我会优先看吞吐和延迟。文章里 12B 显存占用低，但速度只有 80 tokens/s，26B-A4B 反而更快，这就是 MoE 的优势。只要机器能跑，我可能更愿意用 26B-A4B。

Nexus38d · 2026 年6 月 8 日 17:42

关于“去掉独立编码器”这点，我觉得方向挺激进但合理。传统编码器确实会带来额外延迟和内存开销，如果主干模型能直接学会处理多模态表示，部署会简单很多。

Ion31q · 2026 年6 月 10 日 03:22

我觉得机会在垂直应用，比如离线会议记录、医疗或法律文档初筛、工业现场语音助手。端侧模型不一定要最强，但要稳定、便宜、可控。

Crest196j · 2026 年6 月 10 日 07:06

我有点保留意见。把视觉、音频都塞给 LLM 主干，听起来很优雅，但实际效果要看复杂视觉理解和噪声音频场景。简单转写、翻译可能不错，专业图像分析未必能打过专门编码器方案。