苹果的封闭生态为大模型打开！发布开源多模态大模型、每天为AI烧百万美元，零碎的Android 生态打得过吗？

ai-front · 2023 年12 月 25 日 14:08

整理 | 核子可乐、褚杏娟

“苹果公司在 LLM 方面一直表现不佳，但他们一直在不断发展‘硬件 + 软件人工智能’堆栈，没有太多耀眼的广告。我认为，如果新的 iOS 版本突然让 OpenAI/Bard 聊天框看起来可笑地过时，他们可能会击败微软 /OpenAI 和谷歌。如果大量人工智能使用转向苹果硬件，它们也会对英伟达构成威胁，Arm 和台积电将获胜。”有网友说到苹果在大模型发展上的状况。

也有网友认为，苹果在大模型上的发力将为其在未来的手机市场竞争中带来优势。他们认为，开源模型加上移动设备的本地数据，即本地化的原生 LLM，才是关键，谁在设备上运行得好，谁就卖得好。具体来说，iPhone/iPad/Mac 拥有最多、最一致的本地数据生态，许多开源大模型已经可以在 iPhone 上运行，社区也对 M1/M2/M3 芯片进行了大量优化。而反观 Android 生态，情况却不容乐观：三星占据了大部分市场份额，国内五大厂商也占据了相当大的份额，谷歌所占份额极少，碎片化的局面让通用模型运行面临困难。

相比微软等其他巨头在大模型上的高歌猛进，苹果显得很是安静，尤其苹果和哥伦比亚大学的研究人员于在 2023 年 10 月低调发布的一个名为 Ferret 的开源多模态大模型也没有收到太多关注。当时，该版本包含代码和权重，但仅供研究使用，而非商业许可。

但随着 Mistral 开源模型备受关注、谷歌 Gemini 即将应用于 Pixel Pro 和 Android，关于本地大模型为小型设备提供支持的讨论越来越多。而苹果公司也宣布啦在 iPhone 上部署大模型方面取得了重大突破：该公司发布了两篇新的研究论文，介绍了 3D 头像和高效语言模型推理的新技术，被认为可能带来更身临其境的视觉体验，并允许复杂的人工智能系统在 iPhone 和 iPad 等消费设备上运行。

AI 社区中的许多人后来才注意到 Ferret 的发布，他们很开心苹果公司出人意料地进入了开源 LLM 领域，因为苹果公司历来由于封闭的生态而被称为“围墙花园”。下面我们看下这个才开始被热议的项目。

多模态大语言模型 Ferret

“据我们所知，Ferret 是首个能够在多模态大模型中处理自由形式区域输入的成果。”项目研发团队在论文中写道。Ferret 是一种新颖的引用与定位多模态大语言模型（MLLM）。之所以选择多模态大模型作为 Ferret 的设计前提，是因为其拥有强大的视觉语言全局理解能力。

模型架构

根据介绍，Ferret 主要由用于提取图像嵌入的图像编码器；用于提取区域连续特征的空间感知视觉采样器；以及用于对图像、文本和区域特征进行联合建模的大语言模型组成。

输入

将图像输入经过预训练的视觉编码器 CLIP-ViT-L/14 ，以提取图像嵌入 Z ∈ R H×W×C。对于文本输入，使用经过预训练的大模型标记器对文本序列进行标记，并将其投射至文本嵌入 T ∈ R L×D 当中。

空间感知视觉采样器

除了常见的点或矩形框之外，团队需要处理的区域形状可能存在很大差异。基于网格的处理方法（例如卷积或 patch attention）无法处理不规则形状。与之类似，3D 点云也属于不规则形状，而且在 3D 空间中表现出不同的稀疏性。受到现有 3D 点云学习方法的启发，团队提出一种空间感知视觉采样器。

空间感知视觉采样器用以获取任意形状区域的视觉特征，同时考虑到这些形状所对应的不同稀疏性。以此为基础，团队将离散坐标与连续视觉特征组合起来以表示输入中的视觉区域，由此构成 Ferret 中的混合区域表示。凭借上述方法，Ferret 就能够处理由区域同自由格式文本混合而成的输入，并可以无缝生成每个可定位对象的坐标和文本，由此在输出中定位所提及的对象。

假设已经给定提取得出的图像特征图 Z ∈ R H×W×C 和二值化区域掩模 M，团队首先在 M 内随机采样 N 个正点。这 N 个点被输入至级联的块中，每个块包含三个步骤：采样、收集、池化。经过这三个步骤，将获得更少的点和更密集的特征空间。

输出

在 Ferret 的输出中，为了实现定位，团队在文本响应中的相应区域 / 名词之后生成框坐标。例如“图中有一只狗 [100,150,300,200]。”通过这种数据格式，模型即可隐式学习当前图像中的可定位内容及其确切位置。

大语言模型

团队选定 Vicuna 作为语言模型，这是一种在 Llama 之上通过指令微调而来的纯解码器大语言模型。在输入大模型之前，图像嵌入先通过额外的线性层进行转换，以匹配文本标记的嵌入维度。

为了使 Ferret 的引用机制具有开放词汇、指令遵循和健壮性，团队还整理出了一套包含 110 万个样本的引用与引用指令调整数据集 GRIT。

GRIT 中包含多个层次的空间知识，涵盖对象、关系、区域描述和复杂推理等要素。GRIT 包含三种数据类型：被转换为指认遵循格式的公共数据集、通过 ChatGPT 和 GPT-4 生成的指令微调数据和额外的空间负样本数据。其中大部分数据是由现有视觉（语言）任务转换而来，例如对象检测和短语定位。

此外，团队表示，通过 ChatGPT/GPT-4 收集的 34000 条引用和定位指令调整对话，可以高效完成模型的指令遵循与开放词汇引用 / 定位训练。团队还进行了空间感知的负样本挖掘，进一步提高了模型的健壮性。

幻觉问题

团队也观察到了多模态大模型在回答是 / 否类问题时，往往表现出产生“幻觉”。对此，团队通过图像条件类别定位以及语义条件类别定位两种方式进行负样本挖掘。

这两种方式都要求模型定位特定的对象类别，从而使模型能够辨别并潜在发现某些对象的缺失。不同之处在于，如何选择负样本类别。对于前者，团队采用 Object365 数据从给定图像中未显示的词汇中随机选择对象类，对后者则使用 Flickr30k 数据，并通过 ChatGPT/GPT-4 查找与原始类别、属性或数量最相似的实体以获取负样本，例如“男人”和“女人”、“蓝色”和“黄色”。

此外，团队还进行了数据整理，以维持两种类别下正样本和负样本之间的平衡，最终共收集到 95000 条数据。

大模型响应

除了通过模板转换现有数据集之外，对话指令调整数据同样在帮助多模态大模型理解人类意图，并生成流畅、自然、长格式响应方面至关重要。目前，业界广泛使用少样本提示以获取视觉指令调整数据，其中将图像的文本场景描述与人工标注对话作为少样本演示，并通过提示词要求 ChatGPT/GPT-4 根据新图像的文本场景生成相应的对话描述。

但是，以往的指令调整数据主要集中于描述整体图像，而不会明确指定空间相关信息。为了收集引用与定位指令调整数据，团队通过以下三个步骤强调基于区域的空间知识：

除了像以往那样使用对象与全局标题之外，其符号场景描述还包含对象与区域标题间的物理关系以及相应坐标。
在人工标注的对话中，团队在输入 / 输出 / 二者兼具的可定位区域或对象之后添加坐标，且对话通常集中于特定区域，有助于隐式提示 ChatGPT/GPT-4 在生成新对话时遵循类似的模式。
实际生成的对话有时无法遵循在系统提示和少样本示例中编写的规则和模式，这可能是由于大语言模型输入中的上下文太长，导致无法处理所有细节。为此，团队建议重复使用 ChatGPT/GPT-4 来简化最初生成的对话，其平均上下文长度仅为首轮生成数据的 10%。另外，为了节约成本，团队仅在首轮生成中使用 ChatGPT，而后使用 GPT-4 进行简写提炼，最终共收集到 34000 条对话。

训练过程

对于训练过程，团队使用 CLIP-ViT-L/14@336p 对图像编码器进行初始化，使用 Vicuna 对大模型进行初始化，使用 LlaVA 的第一阶段权重对投射层进行初始化，借此实现了视觉采样器的随机初始化。初始化完成后，Ferret 在 GRIT 数据上接受了三个轮次（epoch）的训练，使用 Loshchilov & Hutter 进行优化，学习率为 2e − 5，批量大小为 128。

根据介绍，Ferret-13B/7B 模型在 8 张 A100 上的训练分别需要约 5/2.5 天。在训练过程中，当输入引用区域时，团队会随机选择中心点或边界框（在可行时也会选择分割掩膜）来表示各区域，并对训练数据进行了重复数据删除，借此清理下游评估中的样本。

为了评估这项新功能，团队引入了 Ferret-Bench，其涵盖三种新型任务：引用描述 / 引用推理和对话内定位。团队表示，通过对现有多模态大模型进行了基准测试，发现 Ferret 的平均性能较最出色的原有大模型高 20.4%，而且在物体识别的幻觉方面也有所减轻。

概括来讲，Ferret 项目论文的贡献主要为以下三个方面：

提出了 Ferret 模型，其采用基于新型空间感知视觉采样器的混合区域表示方法，可在多模态大模型中实现细粒度和开放词汇的引用和定位功能。
建立起 GRIT，一套大规模定位与引用指令调整数据集，既可用于模型训练，还包含额外的空间负样本以增强模型健壮性。
引入了 Ferret-Bench 来评估涉及引用 / 定位、语义、知识和推理的联合任务。

结束语

很明显，苹果正在努力追赶这次 AIGC 浪潮。据报道，苹果每天在人工智能上投资数百万美元，内部有多个团队开发多种人工智能模型。

根据报道，苹果致力于对话式人工智能的部门被称为“Foundational Models”，“大约 16 名”成员，其中包括几名前谷歌工程师。该部门由 Apple 人工智能主管 John Giannandrea 掌舵，他于 2018 年受聘帮助改进 Siri。

苹果正在开发自己的大模型“Ajax”。Ajax 旨在与 OpenAI 的 GPT-3 和 GPT-4 等产品相媲美，可运行 2000 亿个参数。Ajax 在内部被称为“Apple GPT”，旨在统一整个 Apple 的机器学习开发，提出了将人工智能更深入地集成到 Apple 生态系统中的更广泛战略。

截至最新报告，Ajax 被认为比上一代 ChatGPT 3.5 更强大。然而，也有人认为，截至 2023 年 9 月，OpenAI 的新模型可能已经超越了 Ajax 的能力。

近日，苹果的机器学习研究团队还悄悄发布了一个名为 MLX 的框架来构建基础模型。彭博社报道称，苹果正在开发 Siri 的改进版本，并计划在下一个重大 iOS 版本中提供以人工智能为中心的功能。

另外，苹果还正在与一些大型新闻出版商洽谈授权其新闻档案，并利用这些信息来训练模型。《纽约时报》称，该公司正在讨论“价值至少 5000 万美元的多年期交易” ，并已与 Condé Nast、NBC News 和 IAC 等出版商保持联系。

今日荐文

你也「在看」吗？ 👇