苹果研究揭示:原生多模态大模型中早融合与晚融合的Scaling Law差异

苹果研究表明,原生多模态大模型中,早融合和晚融合的Scaling Law有所不同。哪种融合方式更胜一筹?

原文标题:早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗?

原文作者:机器之心

冷月清谈:

本文解读了苹果公司关于原生多模态模型(NMMs)的研究报告,对比了“早融合”和“晚融合”两种方法在多模态数据训练上的Scaling特性。早融合强调在模型训练初期就合并处理不同模态的数据,使模型能够更早地学习模态间的交互关系;而晚融合则先独立处理各模态数据,再在模型的较深层进行整合,侧重于利用预训练的单模态模型已经学习到的丰富特征。文章还探讨了 Gemini 和 GPT-4o 等多模态模型的架构选择,以及早融合是否正在成为主流。

怜星夜思:

1、苹果的研究提到了早融合和晚融合在多模态模型中的应用,那么除了模型训练,这两种融合策略在实际应用场景中,例如在自动驾驶或者医疗诊断领域,会有哪些不同的表现和适用性?
2、文章提到Gemini和GPT-4o都采用了多模态模型,那么大家觉得未来多模态模型会朝着哪些方向发展?又会对我们的生活带来哪些改变?
3、文章中提到Scaling Law,那么大家认为Scaling Law在多模态模型中是否仍然适用?如果适用,又需要注意哪些问题?

原文内容

机器之心PRO · 会员通讯 Week 19

--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 ---

1. 早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗?

什么是Native多模态模型?相较目前流行的「晚融合」方案,「早融合」的Native多模态模型的训练过程有何不同?苹果公司近期发布的「NNM」技术报告中,有哪些反直觉的新发现?近期业内有哪些获得较好表现的多模态模型?「早融合」是否正在成为主流?...

2. Agent产品,快者为王?Anthropic 和 Databrick CEO 对话解读

Dario Amodei 为什么说「AI 的未来是 Agents」?数据的「Scaling Law」依然乐观?围绕 Agents 进行数据创新?MCP和A2A范式下,企业怎样维护数据系统安全?Agents产品迭代的关键缺口如何突破?人类如何把握 AI 技术的双刃剑?...


本期完整版通讯含 2 项专题解读 + 29 项 AI & Robotics 赛道要事速递,其中技术方面 14 项,国内方面 4 项,国外方面 11 项。
本期通讯总计 21681 字,可免费试读至 6% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  早融合 VS 晚融合,Natvie 多模态大模型的 Scaling Law 有所不同吗?
相较晚融合的「拼多多」多模态模型,早融合架构的Native多模态模型的训练过程有何不同?[1-1]

1、在多模态模型(MM)的发展中,早期的工作大多采用模块化架构,将视觉编码和语言解码分开处理,近期则有更多工作尝试视觉感知和多模态理解直接集成到一个单一的模型中。

① Gemini是较早采用联合文本、图像、语音和视频进行训练的模态模型。在2023年12月Gemini 1.0发布时, Sundar Pichai 将其称为「新 AI 品种」 ,即原生多模态模型(Native Multimodal)。

② 2024年发布的GPT-4o同样采用端到端的模型来统一处理各个模态的数据。该模型发布时被描述为OpenAI第一个原生全量多模态模型。

2、苹果的研究者在近期的工作探究了这种从头开始在多模态数据上训练的原生多模态模型(NMMs),比较了「早融合」和「晚融合」两种方法的Scaling特性,同时探究了较为流行的晚融合方法是否具备内在优势。

① 由于晚融合的方法对不同模态数据的异质性有更高容忍度,因此成为大部分工作的选择。但这种方式可能会引入偏差,阻碍模型充分利用跨模态依赖关系。

3、早融合或晚融合代表了两种不同的设计理念。前者从最初就启用多模态交互,几乎不使用特定于模态的参数,后者则将多模态数据的处理延迟到更深层,通常在各个模态通过独立的组件进行单独处理后再进行融合。

4、早融合(Early-fusion)方法主张在模型训练的早期阶段就将不同模态的数据(如图像和文本)合并处理。

① 这种方式通过单个Transformer模型直接处理原始的多模态输入,例如将图像分割成patch并线性投影到与文本标记相同的维度,使模型能够从一开始就学习不同模态之间的交互关系。

② 这种方法的优势在于能够充分利用多模态数据的协同效应,使模型在训练初期就对不同模态之间的关联有深刻的理解。

5、晚融合(Late-fusion)方法则采取了不同的策略,它将不同模态的数据首先通过各自的编码器进行独立处理,然后再在模型的较深层进行整合。

① 这种设计通常依赖于预训练的单模态模型,如将预训练的视觉编码器连接到大型语言模型(LLM)的输入层。

② 晚融合的优势在于能够充分利用单模态模型已经学习到的丰富特征。


早融合 v.s. 晚融合,苹果公司的研究有哪些反直觉的新发现?[1-1] 

我比较关注的是多模态模型的泛化能力和鲁棒性。目前的多模态模型在特定数据集上表现很好,但在面对真实世界的复杂场景时,性能往往会下降。未来的研究需要更加关注如何提高多模态模型的泛化能力和鲁棒性,使其能够更好地适应各种各样的应用场景。

此外,我也很期待多模态模型在教育、医疗等领域的应用。例如,未来的多模态模型可能能够帮助医生进行更精确的诊断,或者帮助学生进行更个性化的学习。

这个问题问到了点子上。实际上,早融合和晚融合的选择取决于具体的应用场景和对模型性能的要求。早融合的优势在于能够捕捉到模态间的细微关联,但缺点是计算复杂度较高,对硬件要求也更高。晚融合则相对简单,易于实现,但可能会丢失一些重要的跨模态信息。

举个例子,在自动驾驶中,如果需要模型能够快速响应突发事件,那么早融合可能更适合;而在医疗诊断中,如果需要模型能够给出更精确的诊断结果,那么晚融合可能更适合。

这个问题很有意思!我的理解是,在自动驾驶领域,如果需要实时性很高的决策,比如紧急避险,可能早融合会更好,因为它一开始就考虑了多模态信息的交互,反应更快。但在需要精确分析的场景,比如识别复杂路况,晚融合可能更有优势,因为它能更充分利用预训练模型提取的特征。

在医疗诊断上,早融合可能适用于初步筛查,快速识别潜在风险;晚融合则更适合深入分析,比如结合影像资料和病历信息进行精准诊断。

说到改变生活,我觉得最直接的就是人机交互方式的变革。想象一下,未来你只需要用语音和手势就能控制家里的所有设备,或者通过一个眼神就能让 AI 帮你完成各种任务,这简直太酷了!

当然,多模态模型的发展也可能会带来一些伦理和社会问题,例如隐私泄露和算法歧视。我们需要在发展技术的同时,也要关注这些潜在的风险。

Scaling Law在多模态模型中应该是适用的,毕竟更大的模型通常能学习到更多的信息,但这并不意味着我们可以无限制地增大模型规模。我们需要关注的是数据质量和计算效率,以及如何有效地利用各种模态的信息。

一个很重要的点是,不同模态的数据可能需要不同的Scaling策略。例如,对于文本数据,可能需要更大的模型和更多的数据才能达到一定的性能;而对于图像数据,可能需要更复杂的模型结构才能更好地提取特征。

Scaling Law就像一把双刃剑,用好了可以大幅提升模型性能,用不好可能会适得其反。在多模态模型中,我们需要特别关注以下几个问题:

1. 数据质量:高质量的数据是模型训练的基础,尤其是在多模态场景下,不同模态的数据需要进行精确的对齐和标注。
2. 计算资源:更大的模型需要更多的计算资源,这可能会限制模型的应用范围。
3. 模型架构:合适的模型架构可以更好地利用Scaling Law的优势,例如Transformer架构在自然语言处理领域就表现出了很好的Scaling特性。

总而言之,Scaling Law在多模态模型中仍然具有重要的意义,但我们需要根据实际情况进行调整和优化。

我个人觉得,这两种策略没有绝对的优劣之分,关键在于如何根据实际情况进行选择。在自动驾驶领域,早融合可能更适合处理一些低延迟的任务,例如避障;而晚融合则更适合处理一些需要精确分析的任务,例如交通信号灯识别。在医疗诊断领域也是如此,早融合可能更适合处理一些需要快速判断的任务,例如初步筛查;而晚融合则更适合处理一些需要深入分析的任务,例如病理分析。

我持比较谨慎的乐观态度。Scaling Law在单模态模型中已经得到了验证,但在多模态模型中是否仍然有效,还需要更多的实验验证。毕竟,多模态模型涉及到不同模态之间的交互和融合,这可能会带来一些新的挑战。

例如,如何有效地对齐不同模态的数据?如何避免模型过度依赖某些模态的信息?这些问题都需要我们认真思考。

这个问题很有意思,我认为多模态模型未来的发展方向一定是更加智能化和个性化。例如,未来的多模态模型可能不仅仅能够理解图像、文本和语音,还能够理解人类的情绪和意图,从而提供更加个性化的服务。

例如,未来的智能助手可能会像一个真正的人一样,能够理解你的需求,甚至能够在你情绪低落时给你安慰。