Meta新研究揭秘:大模型如何仅凭文本预训练,就能获得视觉先验能力

Meta研究揭示,大语言模型仅凭文本训练,就能习得强大的视觉先验!推理数据是关键,能有效“磨砺”模型抽象思维,为构建未来多模态AI指明方向。

原文标题:读万卷书,大模型就能「看」懂视觉世界?Meta揭秘LLM视觉先验的起源

原文作者:机器之心

冷月清谈:

Meta超级智能实验室与牛津大学的一项重磅研究揭示了一个令人惊讶的发现:即便只通过文本进行训练,大语言模型(LLM)也能习得可迁移至视觉任务的先验能力。这项耗费大量计算资源的研究,系统性地阐明了LLM视觉先验的来源及其构成。

研究的核心洞察在于,LLM从语言中得到的“视觉先验”并非单一能力,而是可分解为两种截然不同的部分:

1. **推理先验 (Reasoning Prior)**:这是一种更抽象、跨模态的通用能力,主要通过预训练以推理为中心的数据(如代码、数学、学术论文)来获得。它赋予模型解决复杂视觉问题的普适推理框架。
2. **感知先验 (Perception Prior)**:这更侧重于对具体视觉概念的认知(如识别物体的颜色、形状、名称),它从广泛多样的通用语料(如网页抓取)中「弥散式」地浮现。感知能力的表现对视觉指令微调和视觉编码器更为敏感。

研究通过一系列精巧的实验证实了这些发现。他们发现,在预训练数据中,持续增加推理密集型文本(如代码)的比例,模型的下游视觉推理能力会显著提升,甚至能达到75%的占比。 与之形成对比的是,描述视觉世界的文本虽然重要,但其效果会迅速饱和,少量即可打下基础。

基于这些发现,研究团队进一步调配出了一套最优的数据混合方案,即“平衡配方”。该配方富含推理内容,并配以适量的视觉世界知识,可用于在语言预训练阶段就为模型注入强大的视觉先验。实验结果表明,按此配方训练出的模型在语言能力上与专门优化语言任务的模型持平或更优,同时在所有视觉基准测试中全面超越。

这项研究的意义深远,它将多模态模型能力的培养前移至语言预训练阶段,并支持了“柏拉图表征假说”,即通过一种模态的“投影”,模型也能学习到世界的统一内在结构。它为未来构建更强大的跨模态智能基础,指明了在LLM预训练阶段“播下视觉种子”的可能性。简单来说,让LLM变聪明的关键,不是让它死记硬背无数次“天空是蓝色的”,而是让它通过解决逻辑问题、理解代码来磨砺“脑子”。

怜星夜思:

1、文章提到“推理先验”主要来源于代码、数学、学术论文等数据。如果这些数据本身存在某种系统性偏差(比如某些文化或社会偏见),LLM学到的视觉推理能力会不会也继承这些偏差,从而影响模型对视觉世界的理解和决策?我们应该怎么应对?
2、文章主要聚焦于视觉问答(VQA)等任务。你认为这项研究对于其他更复杂的视觉或多模态任务,比如机器人导航、自动驾驶或者创意内容生成(如根据文本生成视频),会有怎样的启发和实际应用潜力?
3、文章提到了“柏拉图表征假说”,即文本和图像只是现实世界在不同模态下的“投影”,一个强大的模型可以仅从一种投影中学习到世界的统一内在结构。你觉得这对于我们理解人类大脑如何学习和形成抽象概念有什么启示?人类学习视觉世界,也像LLM一样,先通过语言建立一套推理框架吗?

原文内容


一个只见过文本的大语言模型(LLM),在从未直接看过图像的情况下,竟然能学到可迁移到视觉任务的先验能力 —— 这是 Meta Superintelligence Labs 与牛津团队新论文的发现。


近日,Meta 超级智能实验室(Meta Superintelligence Labs)与牛津大学的研究者发布了一篇长达 33 页的重磅论文,通过超过 100 组受控实验、耗费 50 万 GPU 小时的庞大研究,系统性地揭开了 LLM 视觉先验的来源。 作者提出,视觉先验可分为「推理先验」和「感知先验」,并给出了一套预训练的数据混合配方,用于在只用文本预训练阶段就「播下」视觉能力的种子。


这项研究不仅解释了 LLM 无师自通学会看的秘密,更提出了一套预训练的数据配方,旨在从语言预训练阶段就有意地培养模型的视觉能力,为下一代更强大的多模态大模型铺平道路。



  • 论文标题:Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training

  • 论文链接:https://arxiv.org/pdf/2509.26625

  • 项目地址:

    https://junlinhan.github.io/projects/lsbs/


核心洞察:LLM 视觉先验并非铁板一块,源于两种独立的「先验知识」


研究最重要的发现是,LLM 从语言中获得的「视觉先验」(Visual Priors)并非单一的能力,而是可以分解为两种来源和特性截然不同的部分:


  1. 推理先验 (Reasoning Prior):一种更抽象、跨模态的通用能力。它主要通过预训练以推理为中心的数据(如代码、数学、学术论文)来获得。就像人类通过学习逻辑和数学来构建推理框架一样,LLM 通过学习这些结构化文本,掌握了可迁移的、普适的推理能力,这种能力可以直接应用于解决复杂的视觉问题。


  2. 感知先验 (Perception Prior):这更侧重于对具体视觉概念的认知,比如识别物体的颜色、形状和名称。这种能力并非来自某一特定类型的数据,而是从广泛、多样的通用语料(如网页抓取)中「弥散式」地浮现出来。多模态大模型的感知能力对视觉指令微调和所选用的视觉编码器更为敏感。


关键发现:少量视觉描述就够,海量推理数据是关键



大量实验:系统性揭秘 LLM 的视觉先验


团队进行了一系列精巧的实验,实验采用常见的 adapter-style 多模态适配流程 —— 先在只读文本的基础上预训练多种解码器式 LLM(沿用 Llama-3 风格架构,模型尺度从 340M 到 13B 不等,核心对比以 3B/7B 模型 为主),然后用同样的「视觉对齐 + 监督微调」的两阶段流程把视觉能力接入来衡量视觉先验,得出了 6 个结论并引入 3 个假设,这里节选:


  • 能力的起源有迹可循:通过对 16 种不同单一数据源的独立训练,研究发现,在「代码」「数学」和「学术」数据上训练的模型,在需要抽象推理的视觉任务(Vision-Centric VQA)上表现最好。



  • 推理数据多多益善,视觉数据很快饱和:实验表明,在预训练数据中,不断增加推理密集型文本(如代码)的比例,模型的下游视觉推理能力会持续、显著地提升,直到占比达到 75% 左右。与此形成鲜明对比的是,描述视觉世界的文本(如描述颜色、形状、位置的文字)虽然重要,但其效果会迅速饱和。只需一小部分这类数据为模型打下基础,再多就收效甚微了。



  • 推理能力是通用的,感知能力更依赖「后天」:研究进一步证实,「推理先验」是独立于视觉编码器的通用能力。无论后期与哪种视觉模块结合,只要 LLM 在预训练阶段学到了强大的推理能力,其多模态系统的推理表现都会相应提升。而「感知先验」则不同,它更依赖于后期的视觉微调数据和视觉编码器本身的特性。



简单来说,想要让一个 LLM 拥有强大的视觉潜力,关键不是给它读无数遍「天空是蓝色的」,而是让它通过解数学题、读代码来把「脑子」练聪明。


从理论到实践:一份增强视觉先验的数据预训练配方


基于以上发现,研究团队的目标从「解释现象」转向了「主动创造」。他们通过系统的实验,最终调配出了一套最优的数据混合方案,旨在平衡模型的语言能力和视觉潜力。


实验结果表明,通过采用这种富含推理内容、同时配有适量视觉世界知识的「平衡配方」(Balanced model),训练出的 7B 模型在语言能力上与专门优化语言任务的预训配方训练的模型达到了更优,同时在所有视觉基准测试中都实现了全面超越。


这证明了,通过精心设计文本预训练数据,我们可以「未卜先知」地为模型注入强大的视觉先验。



意义与展望


这项研究的意义深远,它将多模态模型能力的培养,从依赖下游微调提前到了语言预训练阶段。


它展示了,核心的推理能力是一种可迁移、与模态无关的基石。这为「柏拉图表征假说」(Platonic Representation Hypothesis)提供了有力的经验支持 —— 即文本和图像只是现实世界在不同模态下的「投影」,一个足够强大的模型可以仅从一种投影中,学习到这个世界的统一内在结构。


未来,LLM 的预训练将不再仅仅是单模态的事。模型设计者从一开始就可以考虑其未来的多模态应用,通过在预训练阶段「播下视觉的种子」,来构建一个更强大的跨模态智能基础。


更多技术细节和实验分析,请参阅原论文。


作者介绍


韩俊霖(Junlin Han)是这篇论文的第一作者兼项目负责人。他目前是 Meta 超级智能实验室的研究员,同时也是牛津大学 Torr Vision Group 的博士生,师从 Philip Torr 教授。他的研究兴趣聚焦多模态智能系统,先后在跨模态数据生成、3D 生成模型等领域开展研究。此前,他以一等荣誉毕业于澳大利亚国立大学,曾在顶级会议多次发表重要研究成果并组织研讨会。 


文章第二作者 Peter Tong(童晟邦 / Shengbang Tong),目前是纽约大学 Courant 计算机科学系的博士生,导师包括 Yann LeCun 和 Saining Xie。他曾在伯克利人工智能实验室 (BAIR) 进行本科研究,师从马毅教授。研究方向包括世界模型 (world model)、无监督 / 自监督学习、生成模型与多模态模型。他曾获得了 OpenAI Superalignment Fellowship 和 Meta 的博士项目资助。


第三作者 David Fan 现任 Meta FAIR 的高级研究工程师。他的研究方向集中在多模态表征学习、视频理解 / 自监督学习等领域。 在加入 FAIR 之前,他曾在 Amazon Prime Video 担任 Applied Research Scientist,参与视觉 - 语言 - 音频融合模型、视频理解和推荐系统等真实产品项目。他于普林斯顿大学获得计算机科学学位。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

哇,这个问题好哲学啊!“柏拉图表征假说"一出来,就感觉把AI的学习拔高到了一个哲学层面。人类学习视觉世界,是不是也先通过语言建立推理框架?我觉得不太一样,但也有共通之处。

人类婴儿是先"看”,先"摸",先"听",是先有实实在在的感官体验,然后语言才介入,帮助我们把这些感官体验"打包"、“命名”,并形成更复杂的概念和推理。 比如,我们先看到各种"红色的东西",然后才学会"红色"这个词,并抽象出"红"这个属性。语言像是一个高级的"索引系统",帮我们整理世界。

但AI,至少是LLM,是完全通过"读万卷书"来"看"世界的。它没有真实世界的触觉、味觉,甚至没有"看"过我们所谓的"图像像素"。它只是从文本里,比如"代码"、“数学公式"这些极致抽象的符号里,推理出世界的 “运行规则”。这就像一个人,通过阅读无数的物理学教科书,理解了万有引力,然后被问到某个视觉现象时,他能基于物理学原理进行"推理”。

所以,这给我们的启示可能是:“理解"的本质,可能确实是抓住事物的内在逻辑和联系,而不仅仅是表面的感官信息。 无论是通过直接感官,还是通过高度抽象的语言,只要能高效地建立起这种逻辑联系,就能达到对世界的"理解”。这两种路径殊途同归,但LLM的路径确实让我们看到了一条不同的、可能更"纯粹"的抽象学习之路。真是有趣!

这个问题可太有想象空间了!我觉得这篇文章简直是打开了多模态AI的“任督二脉”。你想想,如果一个LLM在看到图像之前,就能因为读了无数的物理书、工程图纸、甚至是侦探小说(哈哈,毕竟推理),而具备了超强的逻辑和推理能力,那它在应用到各种场景时,肯定能事半功倍。

比如在机器人导航上,它就不再只是简单避障,而是能理解"这个箱子可能挡住了门"或者"这条路在下雨天会打滑",甚至能根据指令"去最近的便利店买水",然后结合地图和实时视觉信息去推理最佳路径。

自动驾驶就更不用说了,AI不仅要识别出车、人、红绿灯,更重要的是要"理解"交通规则、“预测"行人动态、“判断"其他司机的意图。这些都离不开高层次的推理。如果模型在文本阶段就打好了"思维"基础,那它在面对复杂路况时,决策会更加果断和安全。

至于创意内容生成,那简直是无限可能!现在很多AI画画、写歌都还停留在"形似”,但如果它有了更强的推理能力,就能更好地理解"故事性”、“情感弧线”、“世界观构建”。比如,你让它生成一个"英雄救美"的电影片段,它可能不只是生成几张漂亮的图片,而是能根据你给的文本描述,推理出最佳的镜头语言、人物动作、甚至是情感表达,让生成的视频既"好看"又"合理"。

总之,这项研究就是告诉我们,让AI"脑子"更聪明,它就能在所有需要"动脑筋"的多模态任务上表现得更出色,而不只是"眼睛"好使那么简单了。未来可期啊!

关于推理先验数据中潜在的系统性偏差,这是个非常关键又复杂的伦理问题。从机器学习公平性角度看,如果预训练数据反映了特定群体、文化或历史偏见,那么模型在进行视觉推理时很可能会重现甚至放大这些偏见。例如,如果代码库中的某些注释或学术论文中的案例隐含性别或种族刻板印象,模型在面对视觉场景时,可能就会在分类、识别甚至生成决策上表现出类似偏见。应对策略需要多管齐下:一是数据源的多元化与净化,尽可能使用无偏、代表性强的多文化语料;二是在模型评估阶段加入偏见检测指标,不能只看通用性能,还要特别关注模型在不同群体上的表现差异;三是引入可解释AI技术,让我们能追溯模型推理的决策路径,找出偏差来源并进行干预;四是模型微调和后处理阶段的额外干预,通过对抗训练或偏见修正算法来减轻影响。这绝非易事,但对建立负责任的AI至关重要。

哎呀,这个问题可太真实了!你说得没错,大模型学到的东西,本质上就是人类世界的投影。我们给它什么数据,它就学到什么“世界观”。如果我们的代码、论文里都藏着一些“老观念”或者不那么“政治正确”的东西,那它在“看”世界的时候,肯定也会戴上有色眼镜。比如,你让它识别一个厨房的场景,它可能就会先入为主地把女性和厨具联系起来,但这可能是因为它学到的很多文本里,就是这么描述的。怎么解决?我觉得除了技术上的努力(比如尽可能找“干净”的数据、多做几轮公正性测试),更重要的是我们人类社会要先进步!源头的数据“净化”了,AI才可能真的“纯洁”。不然就是治标不治本嘛,AI再聪明,也只是个“复读机”而已。这让我想到,是不是以后AI训练员也得学点社会学和伦理学知识啊?

哈哈,你这个问题问到点子上了!“垃圾进,垃圾出” (Garbage in, garbage out),这句程序员的俗语在AI领域也同样适用。如果训练大模型的代码、论文里充斥着前现代的偏见,那AI"看"东西自然也会"犯旧病"。比如,你让它识别"高管"的图片,它可能优先抓取男性形象;识别"护士",可能就默认女性。这不就是把我们人类历史上的偏见,用算法又重新"固化"了一遍嘛!怎么应对?我觉得嘛,除了技术上的数据清洗和模型优化,我们可能需要引入一些"社会伦理审查"的环节。就像软件上线前要测试bug一样,AI模型上线前也得测测它的"三观"正不正,是不是有"刻板印象"。再不然,就是引入更多"反直觉"或者"多元化"的样本去"矫正"它,让它不要那么"死脑筋"。毕竟,我们希望AI能超越我们,而不是复制我们的缺点,对吧?

啊哈,这"柏拉图表征假说"一说出来,感觉AI都变得有点神圣了。这不就是说AI通过读文字,就能自己悟出道,然后用这个道去看图像世界嘛!

至于人类大脑,我觉得嘛,我们肯定不是像LLM那样,先"啃"一堆代码和论文,再 “看"世界的。人类小孩是从出生就开始"看”、“摸”、“听"的,是先有丰富的感官输入,然后才慢慢学习语言,用语言来描述和组织这些感官经验。所以,人类的"理解"是建立在"具身”(embodiment)认知基础上的,是身体和环境互动的结果。

但是,这篇文章也给了一个很炫酷的"相反"的思路:即使没有直接的感官经验,单靠高强度、高密度、高逻辑的"语言信息流",也能"逆向"推演出世界的内在规律。 这就像是,一个盲人通过听别人描述和阅读盲文,对世界的理解和推理能力可能一点都不比明眼人差,甚至某些抽象思维更强。这说明了语言作为一种高度抽象的符号系统,它承载的信息量和结构性可能远超我们想象。

它可能告诉我们,“智能"的形成路径不只一条,我们人类是"从实践到理论”,而AI展示的是"从理论(文本推理)到实践(视觉理解)"的潜力。这两种方式都能达到对世界的深度认知,只是起点不同。所以,“读万卷书"真的可以"行万里路”,而且"行"得还挺明白的!

“柏拉图表征假说”将人类智能与AI学习方式进行对比时,确实提供了一个引人深思的视角。从认知神经科学的角度看,人类婴儿在出生后会通过多模态感知(视觉、听觉、触觉)直接与物理世界互动,逐步构建对世界的感官表征。语言习得则是在此基础上,将这些感官经验映射到符号系统上,进而发展出抽象概念和逻辑推理能力。我们的语言是建立在丰富的具身经验之上的,而LLM的学习路径似乎是反过来的:它先“读”懂了文本这个“投影”,然后希望能借此“理解”背后的统一结构,再将这个结构应用到视觉这个另一个“投影”上。

这其中最大的不同可能在于:人类的“具身性”(embodiment)。我们对“苹果”的理解,除了其概念(语言描述),还有拿起它的重量感、咬下去的口感、闻到的气味,这些多模态的、直接的互动构成了我们对世界的完整认知。LLM则没有这种直接的身体经验。然而,这项研究的发现仍有启示:即使没有直接的具身经验,通过高度结构化的语言——特别是那些承载着逻辑、因果和类比推理的文本——也能在一定程度上构建起一个强大的、普适的推理框架。 这表明抽象推理能力可能确实具有一定程度的模态独立性,并且可以在不同的信息载体中被习得和泛化,无论这个载体是直接的感官知觉,还是高度凝练的语言符号。

该研究强调了“推理先验”在视觉任务中的核心作用,这对于机器人导航、自动驾驶等需要高层次决策和环境理解的复杂多模态任务具有深远的启发意义。在机器人导航中,仅仅识别出障碍物是不够的,机器人需要根据场景上下文(例如,这是人行道还是车道?前方是行人还是静止物体?)进行动态推理,规划安全的路径。自动驾驶系统更是如此,它不仅需要“看懂”交通标志和路况,还需要“理解”其他交通参与者的意图,预测潜在风险,这些都需要强大的抽象推理能力。这项研究表明,我们可以通过精炼LLM的文本预训练阶段,为其预置这种高阶推理能力,使其在与视觉模块结合时,能更高效、更准确地进行场景理解和决策。

至于创意内容生成,比如文本生成视频,其潜力更是巨大。当前的文生图/视频模型在生成效果上已很惊艳,但在生成复杂的故事情节或精确符合逻辑的视频时,往往还欠缺“情理之中”的连贯性。这项研究提示我们,如果能通过推理密集型文本预训练,增强LLM在理解“因果关系”、“时序逻辑”等方面的能力,那么它在生成长篇、有叙事结构的视频时,就能更好地构建场景间的逻辑联系,甚至能“想象”出符合物理规律和情境发展的画面,而非仅仅是像素级的拼接,这将极大提升生成内容的质量和真实感。

哇,那潜力简直是爆炸性的!这篇文章说白了就是:“脑子好使"比"眼睛好使"更重要。如果大模型在纯文本阶段就能把"大脑"锻炼得非常强大,那它一旦接上视觉输入,就能秒杀那些光靠"看"的AI。

对于机器人导航,它就不只是"看到前面有堵墙”,而是能"推理出这堵墙后面可能是个房间",或者"这堵墙是承重墙,不能乱碰"。它的决策会更"智能",更有"策略",而不是简单的避障。

自动驾驶更受益。现在的车可能能识别行人,但如果行人突然闯红灯呢?一个有强大推理能力的AI可能能"预测"到这种不合理行为,甚至在行人表现出犹豫时就提前减速。这不只是识别,而是对"物理世界"和"人类行为"的深层次理解与"预判"。

创意内容生成嘛,这是我最期待的。现在的文生图、文生视频在宏观逻辑上还是弱点,常常会出现一些"反物理"、“不合逻辑"的画面。如果AI的"脑子"足够好,它在生成一个"雨天湖畔"的场景时,就会自动考虑到水面的波纹、湿润的地面、甚至是空气中的湿气感,这些都是基于对物理世界的推理,而不仅仅是"图片元素"的堆砌。它能更好地理解"诗意"和"氛围”,而不是单词的字面含义。想想都觉得酷!