iPhone本地运行Gemma 4爆火:端侧AI的未来已来?

谷歌 Gemma 4 模型可在 iPhone 本地运行,速度惊人,或将改变 AI 产业格局,端侧模型有望蚕食云端市场。

原文标题:iPhone本地跑Gemma 4火了,0 token时代还有多远?

原文作者:机器之心

冷月清谈:

谷歌开源的 Gemma 4 模型因其强大的性能和对端侧设备的支持而备受关注。该模型可在 iPhone 等设备上本地运行,速度惊人,尤其是在苹果芯片和 MLX 框架的优化下,推理速度可超过 40 token/秒。128k 的上下文窗口也使其在医疗等敏感场景中具有吸引力。用户可通过谷歌官方 App——Google AI Edge Gallery 轻松体验。虽然在复杂任务和工具调用方面仍有不足,但 Gemma 4 的出现预示着 AI 产业的商业模式可能发生变革,端侧模型有望逐步蚕食云端的高频简单任务。未来,随着硬件和量化技术的进步,端侧模型可能彻底模糊本地和云端的界限。

怜星夜思:

1、Gemma 4 在 iPhone 上本地运行速度如此之快,你觉得这会对手机 App 的开发带来哪些新的可能性?比如,会不会出现更多完全离线的 AI 应用?
2、文章提到 Gemma 4 在处理复杂任务和工具调用时表现不佳,但 qwen3-coder 却表现更好。你认为这背后的原因是什么?是模型架构的差异,还是训练数据的侧重不同?
3、文章最后说,端侧模型可能会蚕食云端的高频简单任务。你认为哪些云端 AI 服务最容易被端侧模型取代?未来云端 AI 服务的核心竞争力会是什么?

原文内容

图片
机器之心编辑部


谷歌前几天开源的新模型 Gemma 4,给了业内一个大大的惊喜。



它采用了与 Gemini 3 同源的技术架构,支持原生全模态,在 Arena AI 排行榜上拿到了全球第三,而且有多个型号可以选。几个较小的型号 —— E2B(有效参数 2.3B)和 E4B(有效参数 4.5B)—— 可以直接部署在手机端本地运行,上下文窗口达到 128K,可以说是「可以放进口袋的 Gemini平替」。


不出所料,模型发布后很快就成了手机用户的新玩具。


其中,一个 X 用户的帖子被围观数十万次。他在帖子里放了一个视频,讲述自己如何在 iPhone 上本地运行 Gemma 4,包括处理图片、音频、控制手电筒开关。他表示,Gemma 4 速度快得惊人,感觉像魔法一样。




有人在 iPhone 17 Pro 上量化了这一速度,指出如果手机用的是苹果芯片,那么在针对这套芯片优化的 MLX(苹果的机器学习框架)的帮助下,模型的推理速度可以超过 40 token / 秒。




还有人在三星 Galaxy 上也跑出了类似的速度,而且还是在开启了思考模式的情况下。这让人直呼「快得不真实」。



这样的速度让手机端运行 AI 模型成为了未来可以被接受的选项,而且在医疗等敏感场景中非常有用。



128k 的上下文窗口也让这些小模型变得更有吸引力。



那具体怎么运行呢?其实很简单,不是极客专属,因为谷歌发布了官方 App——Google AI Edge Gallery。想在手机上体验的人可以直接下载这个 App,然后下载想要运行的模型版本,之后打开就能跑了。



而且,由于是谷歌官方发布,安全问题自然也不用太担心。



除了这些在手机端运行的小模型,还有人在更强的硬件上尝试了更大的 Gemma 4 版本,比如在 M5 Pro 版本的 MacBook Pro 上运行 Gemma 4 Mixture-of-Experts 26B。



如果是直接对话,这个模型的速度还是很快的,文本生成、代码解释都很顺畅。



但当他真的将 Gemma 4 当成 coding agent 去用时,问题就来了。因为跑 agent 时需要大上下文(Gemma 4 26B 上下文窗口为 256k)、复杂 prompt 和稳定的工具调用,Gemma 4 在这些地方明显扛不住,经常卡住、报错,或者输出结构不对。



转折点发生在他将模型换成  qwen3-coder 的时刻 ,同样环境下,文件创建、命令执行、多步任务都能正常跑。他认为,问题不在 agent 框架,而在模型本身有没有为「工具调用 + 结构化输出」做过优化。在这方面,Gemma 4 可能做得还不够,也有可能这位开发者还没找到正确的用法。



此外,还有人说,Gemma 4 在智力水平上还有点鸡肋。



虽然如此,Gemma 4 这种「性能小钢炮」的出现依然不容小觑。如果以后大量的日常查询、聊天、简单推理、代码生成、图像理解任务都可以本地跑了,不再需要买 token,那卖 token 的厂商岂不是处境很尴尬?





当然,当前情况还没有那么悲观,毕竟现在被开源出来的模型和前沿的旗舰闭源模型之间还有差距,而且大部分能打的开源模型依然受制于硬件能力,暂时还没办法在端侧达到可用级别。



但未来的趋势是清晰的。短期看,云端闭源模型在最前沿的复杂推理和超大规模多代理协作上依然领先;但长期看,当硬件继续进步、量化技术继续优化,端侧模型会逐步蚕食云端的高频简单任务。


那些只靠卖 token、卖 API 订阅的厂商,将不得不更狠地卷「真正难啃」的部分 —— 超强 Agent、超长可靠上下文、以及需要海量实时数据的专有能力。


Gemma 4 只是一个开始。下一个惊喜,可能就是某款端侧模型在日常使用中彻底让用户感觉不到「本地」和「云端」的区别。那一天到来时,整个 AI 产业的商业模式,都会迎来一次真正的洗牌。 




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我觉得这肯定会带来很多新的可能性!首先,App 可以实现完全离线运行,用户体验会更好,毕竟谁也不想在等电梯的时候因为网络不好就用不了 AI 功能。其次,开发者可以更加大胆地在 App 中集成 AI 功能,比如智能修图、实时翻译等等。以后可能出现那种完全依赖本地 AI 算力的 App,想想都刺激!

个人觉得,未来的云端 AI 服务会更加注重个性化和定制化。就像 Netflix 一样,会根据用户的喜好推荐内容。云端可以利用海量的数据和强大的算力,为每个用户打造独一无二的 AI 体验。端侧模型只能做一些简单的任务,无法实现这种个性化服务。

从学术角度来看,模型架构肯定也有影响。不同的模型架构在处理不同类型的任务时会有不同的优势。例如,Transformer 架构在处理序列数据方面表现出色,而某些专门设计的架构可能更擅长工具调用。但是,在训练数据充足的情况下,模型架构的影响可能会被弱化。

这问题问到了点子上!我个人倾向于认为这是训练数据侧重不同导致的。Gemma 4 可能更注重通用能力,而 Qwen3-Coder 明显针对代码生成和工具调用进行了优化。就好比术业有专攻,有的模型是全科医生,有的模型是外科专家。