苹果发布Apple Intelligence基座模型:性能超Qwen 2.5,三行代码即可接入

苹果推出Apple Intelligence基座模型,性能超Qwen 2.5,开发者可通过三行代码接入,提升APP的AI能力。

原文标题:苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理

原文作者:AI前线

冷月清谈:

苹果在WWDC上推出了专为Apple Intelligence开发的语言基座模型,包括一个30亿参数的设备端模型和一个服务器端混合专家模型。这些模型优化了工具使用与推理能力,支持15种语言,并提供新的基座模型框架,允许开发者通过几行代码即可在APP中接入AI推理功能。设备端模型在效率上进行了优化,服务器端模型则提供高精度与可扩展性。苹果的设备端模型在所有语言环境下均优于Qwen-2.5-3B,服务器端模型优于Llama-4-Scout。苹果还改进了训练方案,提升了模型的推理能力,并通过量化感知训练等技术降低功耗。该框架原生支持Swift语言,使得开发者可以轻松地在应用中集成AI能力。

怜星夜思:

1、苹果这次发布的Apple Intelligence基座模型,强调了设备端模型的效率,如何在保证性能的同时,尽可能降低设备功耗和资源占用?
2、苹果开放Apple Intelligence平台给第三方开发者使用,你认为这会对整个AI生态产生什么影响?
3、文章中提到苹果使用了PT-MoE架构来提高服务器端模型的效率,这种架构相比传统的MoE有什么优势?

原文内容

整理 | 华卫、核子可乐

在今年的 WWDC 全球开发者大会上,苹果推出新一代专为增强 Apple Intelligence 功能所开发的语言基座模型。经过优化的最新基座模型可在苹果芯片上高效运行,包括一个约 3B 参数的紧凑型模型和一个基于服务器的混合专家模型,后者为专门针对私有云量身定制的全新架构。

这两大基座模型,均隶属于苹果为支持用户而打造的生成式模型家族。这些模型改进了工具使用与推理能力,可以理解图像与文本输入,速度更快、效率更高,而且能够支持 15 种语言及平台中集成的各种智能功能。

苹果基座模型建模概览

同时,苹果推出了全新基座模型框架(Foundation Models Framework),允许第三方开发者直接访问 Apple Intelligence 的核心大型语言模型,并将其构建到他们的 APP 中。应用开发者将可以免费使用 AI 推理功能,只需几行代码即可访问,并轻松将文本提取和摘要等功能引入自己的应用。

所有语言环境下均

优于参数更大的 Qwen

“苹果开发新的设备端与服务器端模型,是为了满足广泛的性能与部署需求。”据介绍,设备端模型针对效率进行了优化,并专为苹果芯片定制,强调以最低资源占用实现低延迟推理;而服务器端模型则将为更复杂的任务提供高精度与可扩展性支持。

据介绍,苹果通过开发新的模型架构来提高这两个模型的效率。对于设备端模型,将整个模型按 5:3 的深度比分为两块。块 2 中的所有键值(KV)缓存都直接与块 1 最后一层生成的缓存共享,由此将键值缓存的内存占用量降低了 38.5%,同时显著改善了首个 token 生成时间(time-to-first-token)。

苹果还引入并行轨道专家混合 (PT-MoE) 设计,为服务器端模型开发出一套新架构。此模型由多个较小的 Transformer(即「轨道」)组成,它们独立处理各 token,仅在各轨道块的输入和输出边界处应用同步。每个轨道块还拥有自己的一组 MoE 层。结合依托轨道独立性实现的轨道级并行机制,这样的设计显著降低了同步开销,使得模型在不影响质量、保持低延迟的前提下拥有高效扩展能力。

PT-MoE 架构图

此外,为支持更长的上下文输入窗口,苹果设计了一种交错注意力架构,将滑动窗口局部注意力层与旋转位置嵌入(RoPE)相结合,并将全局注意力层与无位置嵌入(NoPE)相结合。这样的设置提升了长度泛化能力,减少了键值缓存大小,并可在长上下文推荐期间保持更好的模型质量。

完成一系列优化后,苹果从标准的基础语言和推理能力维度,使用人工评分员对设备端和服务器端模型进行了离线质量评估,涵盖分析推理、头脑风暴、对话交互、分类、封闭式问答、编码、创意写作、信息提取、数学推理、开放式问答、改写、总结以及工具使用等方面。随着将模型支持扩展到更多语种及语言环境,苹果也同步扩展了评估任务集,使其能够针对特定语言环境进行评估。

据苹果公布的评测结果显示,设备端模型在所有语言环境下的表现均优于体量略大的 Qwen-2.5-3B,而且在英语环境下可以与体量更大的 Qwen-3-4B 及 Gemma-3-4B 相媲美。服务器端模型则优于 Llama-4-Scout,后者的总体规模与有效参数数量均与其相当;但仍落后于 Qwen-3-235B 及专有的 GPT-4o 等更大模型。

苹果基座模型与公开模型的文本进行并排评估时偏好响应的比例,结果按三种语言环境组呈现。

在将设备端模型与类似规模的视觉模型(即 InternVL-2.5-4B、Qwen-2.5-VL-3B-Instruct 和 Gemma-3-4B)、服务器端模型与 Llama-4-Scout、Qwen-2.5-VL-32B 和 GPT-4o 分别进行对比时,苹果的设备端模型表现优于规模更大的 InternVL 和 Qwen,与 Gemma 相比也毫不逊色;而服务器端模型在推理 FLOPS 不到后者一半的情况下,性能优于 Qwen-2.5-VL,但不及 Llama-4-Scout 与 GPT-4o。

在对苹果基座模型与同类模型进行图像响应评估时,能够生成最优响应的比例。

据悉,为实现视觉功能,苹果团队还开发了一个由大规模图像数据训练而成的视觉编码器,它由一个用于提取丰富特征的视觉主干网络与一个用于将特征与大模型标记表示对齐的视觉语言适配器组成。苹果使用具有 1B 参数的标准 Vision Transformer(ViT-g)作为服务器模型,并使用具有 3 亿参数的高效 ViTDet-L 主干网络作为设备部署模型,还在标准 ViTDet 中引入了一种新的寄存器窗口(RW)机制,以便更有效地捕捉全局上下文与局部细节。

  训练方案大改进,

推理能力是重头戏?

过去一年里,为扩展 Apple Intelligence 功能以支持更多语言和各类需要图像理解等更广泛的功能,苹果团队对基座模型的训练方案也经历了一系列改进,尤其是针对推理方面。

首先,预训练分多个阶段进行,其中计算量最大的第一阶段仅针对文本模态。其使用蒸馏损失函数对设备端模型进行训练,但具体方式并非使用大规模密集模型作为教师模型来从头开始进行预训练,而是使用少量质量最高的文本数据,将预先训练好的约 3B 模型稀疏升级为一个包含 64 个专家、每 2 层对应一个专家的混合模型(MoE)。这种方式将教师模型的训练成本降低了 90%。另一方面,稀疏服务器端模型则是使用 14T 个文本 token 从头开始训练而成。

在预训练的第二阶段,该团队使用小模型解码器对视觉编码器及视觉语言自适应模块进行联合训练,使用高质量文本数据、交错图文数据和特定领域的图文数据将图像特征与模型的表征空间进行对齐。之后,他们利用这些视觉编码器与预训练模型来改进代码、数学、多语言及长上下文理解能力,并通过多个持续进行的预训练阶段整合了图像理解。

到持续预训练阶段,苹果团队调整了数据集混合比,同时整合了经过正确性验证的合成数据,借此提升代码、数学与多语言能力;之后又通过多模态自适应整合了视觉理解,且并未损害模型的文本能力。在此阶段,他们从头开始训练了一个视觉语言自适应模块,借此将视觉编码器接入设备端 / 服务器端两个基座模型。

后训练流程中,该团队将人工编写的演示与合成数据结合起来以扩展监督微调(SFT)规模,旨在重点关注核心视觉功能,其中包括常识、推理、基于文本的图像理解、文本与视觉基础以及多图像推理。通过检索更多图像并合成相应的提示词与响应结果对,其进一步提升了视觉 SFT 数据的多样性。

在 SFT 阶段之后,他们将基于人类反馈的强化学习(RLHF)应用于设备端与服务器端模型,同时提出一种基于模型多代奖励方差的新颖提示选择算法,用以整理 RLHF 训练中使用的提示词数据集。评估结果表明,RLHF 在人类与自动基准测试中均取得了显著提升。此外,虽然他们在 SFT 和 RLHF 阶段均引入了多语言数据,但从结果来看 RLHF 的提升比 SFT 更为显著,在人类评估中的优势比例为 16:9。

为在提高推理效率的同时降低设备端与服务器端模型的运行功耗,苹果团队接下来使用量化感知训练(QAT)技术将设备端模型压缩至每权重 2 bit(bpw),服务器端模型则使用一种名为自适应可扩展纹理压缩(ASTC)且基于块的纹理压缩方法。ASTC 解压缩则是通过苹果 GPU 中的专用硬件组件实现,该组件能够在不增加额外计算开销的情况下实现权重解码。

面向两个模型,苹果团队将嵌入表量化为每权重 4 bit,对设备端模型使用 QAT 与基础权重进行联合训练,对服务器端模型使用后训练量化;键值缓存被量化为每权重 8 bit。然后,他们使用额外数据训练低轶适配器,以恢复因压缩步骤而损失的质量。通过这些技术,研究人员观察到一定程度的质量回归甚至是细微提升,如设备端模型的 MGSM 回归约为 4.6%,MMLU 提升 1.5%;服务器端模型的 MGSM 回归为 2.7%,MMLU 回归为 2.3%。

设备端与服务器端基座模型的压缩与比特率

三行代码接入 

Apple Intelligence 核心模型

关于苹果将开放其 Apple Intelligence 平台的传闻,今年早些时候已开始流传。5 月,有外媒报道称,苹果将迈出第一步,让第三方应用能够访问其智能系统,不过应用无法直接调用模型本身,只能使用 AI 驱动的功能。

现在,借助最新发布的基座模型框架,苹果正为开发者提供在自有应用中使用原生 AI 能力的机会,第三方应用将能够借助这些功能实现图像生成、文本创作等更多场景。开发人员可以使用 ~3B 参数设备端语言模型开始创建自己的可靠、生产质量的生成式 AI 功能。作为 Apple Intelligence 核心的 ~3B 语言基础模型擅长各种文本任务,如摘要、实体提取、文本理解、优化、简短对话、生成创意内容等。

“我们鼓励应用开发者使用此框架来构建针对其应用量身定制的有用功能。通过这套精心设计的框架,应用开发者可以充分利用设备端模型。”苹果表示。

据了解,这套框架的一大亮点在于,其原生支持 Swift 语言,开发者只需短短三行代码,即可轻松接入 Apple Intelligence 模型。框架内置引导式生成、工具调用等功能,使在现有应用中集成生成能力变得前所未有的简单。

例如,Automattic 公司正在其 Day One 日记应用中使用该框架,为用户带来以隐私为核心的智能功能。  “基座模型框架帮助我们重新思考日记应用的可能性,”Automattic 旗下 Day One 负责人 Paul Mayne 表示,“现在我们能够以深度尊重用户的方式,将智能与隐私结合在一起。”

而且,该框架的工具调用方法建立在引导式生成的基础之上。开发者只需要提供简单的 Tool Swift 协议实现,框架就会自动以最佳方式处理并行及串行工具调用中的复杂调用图。而基于工具使用数据对模型进行后训练,苹果的模型在此框架下的功能可靠性也得到了提升。苹果称,工具调用功能使得开发者能够创建为模型提供特定类型信息源或服务的工具,借此实现对 3B 模型的功能定制。

目前,该基座模型框架正通过 Apple Developer Program 进行测试,公开测试版将于下月初提供。

参考链接:

https://www.apple.com/newsroom/2025/06/apple-supercharges-its-tools-and-technologies-for-developers/

https://machinelearning.apple.com/research/apple-foundation-models-2025-updates

https://techcrunch.com/2025/06/09/apple-lets-developers-tap-into-its-offline-ai-models/

声明:本文为 AI 前线整理,不代表平台观点,未经许可禁止转载。

活动推荐

恭喜您获得「亚马逊云科技中国峰会」早鸟票!

这里有:

  • 3 大主题演讲60+ 行业与技术分论坛

  • 200+ 全球重磅演讲嘉宾10000㎡ 沉浸式体验区

  • 6 月 19-20 日,共聚上海世博中心!

扫码免费报名!


今日荐文

图片

你也「在看」吗?👇

影响肯定是巨大的,想想当年App Store刚推出的时候,对整个移动互联网行业的冲击有多大!这次苹果开放AI平台,相当于把AI能力也放到了App Store上,让开发者可以像搭积木一样,构建各种AI应用。不过,也要看到,苹果的生态一向比较封闭,这次开放平台,可能会有一些限制,比如应用审核、数据使用等方面。所以,最终的影响如何,还要看苹果的具体政策。

这个问题比较学术,需要查阅一些相关的论文才能深入理解。简单来说,PT-MoE是一种针对大规模MoE模型的优化方案,旨在提高模型的并行度和效率。传统MoE模型的专家之间存在依赖关系,导致训练和推理过程中需要进行大量的通信。而PT-MoE通过将模型分解成多个独立的轨道,减少了专家之间的通信,从而提高了模型的并行度和效率。具体的实现细节比较复杂,涉及到图计算、分布式训练等多个领域。

苹果开放Apple Intelligence平台给第三方开发者,绝对是AI领域的一件大事。这意味着更多的开发者可以基于苹果的AI能力,开发出各种创新应用,丰富整个AI生态。而且,苹果一向注重用户隐私,这次开放平台也强调了在保护用户隐私的前提下提供AI服务,这对于整个行业来说,也是一个很好的示范。可以预见,未来会有更多注重隐私保护的AI应用涌现出来。

从理论上讲,PT-MoE的优势在于解耦,减少了同步等待的时间。你可以把传统的MoE想象成一个流水线,每个工人在不同的工位上,必须等前一个工位完成才能继续。而PT-MoE就像是多个并行的流水线,每个流水线独立工作,只有最后才合并结果。这样一来,即使某个流水线上的工人速度慢一点,也不会拖慢整个进度。当然,实际应用中,还需要考虑很多因素,比如如何分配任务,如何保证各个轨道的一致性等等。

这个问题问到了点子上!苹果在设备端AI上的策略向来是软硬结合。这次的基座模型,除了算法层面的优化,比如KV缓存共享和QAT,更重要的是他们充分利用了自研芯片的优势。A系列和M系列芯片在设计之初就考虑到了AI计算的需求,拥有专门的神经引擎,可以高效地执行AI任务。所以,苹果的设备端AI性能,一部分来自于算法优化,另一部分则来自于硬件加速。这两者结合,才能在保证性能的同时,降低功耗和资源占用。

我觉得苹果这次开放平台,有点“曲线救国”的意思。之前苹果在AI领域一直相对保守,错失了一些发展机遇。现在通过开放平台,吸引更多的开发者参与进来,可以快速弥补自己在AI技术上的短板,同时也能借助开发者的力量,探索更多的AI应用场景。总而言之,这对苹果来说是一步妙棋,既能扩大AI生态,又能巩固自己的平台优势。

PT-MoE(并行轨道专家混合)架构是苹果为了解决传统MoE模型在扩展性上遇到的瓶颈而提出的。传统的MoE模型,各个专家之间需要频繁的同步,导致通信开销很大,尤其在模型规模很大的时候。PT-MoE架构通过将模型分成多个独立的“轨道”,每个轨道独立处理token,减少了同步开销。只有在轨道块的输入和输出边界处才进行同步,这样就可以在不影响模型质量的前提下,实现高效的扩展。简单来说,就像是把一个大团队分成几个小团队,每个小团队负责一部分任务,小团队之间只需要偶尔沟通一下,效率就大大提高了。

苹果在这次的设备端模型中,采取了很多措施来平衡性能和功耗。例如,他们采用了模型架构上的优化,比如将模型按5:3的深度比分块,共享键值缓存,这样既减少了内存占用,也提高了推理速度。另外,他们还使用了量化感知训练(QAT)技术,将模型压缩到每权重2 bit,这在显著降低功耗的同时,还能尽量保证模型精度不受太大影响。总的来说,就是通过各种软硬件结合的手段,让AI模型在设备上跑得更快更省电。

谢邀,人在WWDC现场,刚拿到开发者套件。这次苹果在设备端AI上下了大功夫,不仅仅是模型本身,还包括整个开发环境的优化。他们提供了一套Foundation Models Framework,让开发者可以快速接入Apple Intelligence模型,而且原生支持Swift语言,降低了开发门槛。这样一来,更多的开发者可以参与到设备端AI应用的开发中来,共同探索如何在苹果设备上实现更高效、更智能的AI应用。