突破数据瓶颈:SICOG框架引领大模型走向自我进化

传统预训练遇瓶颈,SICOG框架通过自生成数据和三阶段协同机制,助力大模型实现“自我进化”,突破数据依赖,迈向更智能的未来。

原文标题:传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?

原文作者:机器之心

冷月清谈:

面对高质量数据枯竭的困境,传统预训练方法难以为继。文章介绍了港中文和清华等高校提出的SICOG框架,该框架通过“后训练增强—推理优化—再预训练强化”的三位一体自进化机制,重塑大模型的进化路径。SICOG引入了“链式描述”技术和“结构化思维链”机制,使模型在零人工标注的条件下实现认知能力的持续进化。实验结果表明,SICOG能显著提升模型的综合表现,尤其在依赖多步推理的任务中表现突出,并提升幻觉控制能力。该框架为未来通用人工智能模型的构建提供了可扩展、可迁移的新路径。

怜星夜思:

1、SICOG框架中“链式描述” (Chain-of-Description, CoD) 技术,是如何提升模型对图像的理解能力的?在实际应用中,CoD可能存在哪些局限性?
2、SICOG框架强调预训练、推理阶段的计算扩展与后训练优化三者的深度协同,为什么这种协同如此重要?如果三者之间存在不平衡,可能会导致什么问题?
3、SICOG框架通过自生成数据实现模型的持续进化,这种方式在多大程度上能够替代传统的人工标注数据?自生成数据可能存在哪些潜在风险,如何应对?

原文内容


高质量数据枯竭,传统预训练走向终点,大模型如何突破瓶颈?


当前(多模态)大模型正深陷「数据饥渴」困境:其性能高度依赖预训练阶段大量高质量(图文对齐)数据的支撑。然而,现实世界中这类高价值数据资源正在迅速耗尽,传统依赖真实数据驱动模型能力增长的路径已难以为继。


在 NeurIPS 2024 会议上,OpenAI 联合创始人 Ilya Sutskever 明确指出:「Pre-training as we know it will end。」这一判断成为对传统预范式极限的清晰警示。为延续性能提升,主流研究方向开始转向推理优化与后训练微调(如强化学习)。



然而,最新研究表明:此类改进极其依赖模型在预训练中所奠定的能力基础。如果模型在早期未能系统性地习得相关能力,后续优化就如同在沙地上建高楼——进展有限,风险颇高。不同模型在「自我进化」能力上的表现也存在巨大差异,其实质仍是「题海战术」的延伸:缺乏方法论支撑的训练,难以应对真实世界中的复杂和变化。


面对这一瓶颈,大模型的未来路在何方?


微软研究院科学家 Shital Shah 在社交媒体上指出:合成数据(synthetic data)或许是打破当前能力天花板的关键。



近日,港中文联合清华等高校提出:未来大模型性能的持续提升,需依赖「预训练、推理阶段的计算扩展、后训练优化」三者的深度协同。这一观点打破了传统依赖单一预训练路径的范式,为下一代多模态基础大模型(Foundation MLLMs)的构建提供了全新思路。



  • 论文标题:Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition

  • 论文地址:https://arxiv.org/abs/2503.12303v5


在此基础上,研究团队提出了创新性框架——SICOGSelf-Improving cognition,旨在重塑大模型的进化路径。SICOG 引入了独创的「链式描述」技术,通过五步渐进式视觉解析引擎,实现模型从显著内容捕捉到细粒度关联推理的全面感知跃升。


该框架同时采用了「结构化思维链」机制,有效增强模型对多模态信息的融合处理与复杂推理能力。更具突破性的是,SICOG 通过自生成数据闭环 + 语义一致性筛选机制,使模型在零人工标注的条件下实现认知能力的持续进化,真正迈向高效、自主的学习范式。


SICOG 的提出,不仅打破了当前模型在数据、算力与微调优化三者割裂发展的瓶颈,也为未来通用人工智能(AGI)模型的构建提供了可扩展、可迁移的新路径。


SICOG:三位一体协同框架,让模型学会「自我进化」



传统多模态大模型(MLLMs)依赖海量标注数据与静态预训练范式,面临数据稀缺与能力增长受限的双重瓶颈。为突破这一困境,本文提出全新框架 SICOG(Self-Improving cognition),首次构建了涵盖「后训练增强—推理优化—再预训练强化」的三位一体自进化机制,重新定义了预训练边界,为下一代 MLLMs 注入动态认知与持续学习能力


SICOG 的三阶段协同机制包括:


  1. 后训练增强:利用少量高质量标注数据,提升模型的系统性认知与基础推理能力;
  2. 推理优化:在大规模无标签多模态数据上进行自主推理,通过「自我一致性投票机制」筛选出高置信度答案,自动生成伪标签;
  3. 再预训练强化:将筛选后的高质量伪标注数据反馈用于预训练,实现模型能力的持续进化。

SICOG 的关键创新在于实现了模型的「学中实践、实践中进化」:从少量种子数据出发,模型通过「看图总结 + 解题推理」主动构建多任务样本,实现数据生成与学习闭环。无需大规模人工标注,即可高效扩展预训练数据,根本性缓解当前高质量多模态数据稀缺的问题。



描述链(Chain-of-Description, CoD):让模型「看图像像人一样」


CoD(描述链)是一种结构化分步感知方法,使模型像侦探一样逐层观察图像,从主体到细节、从关系到背景,构建出完整、逻辑严密的图像理解过程。


以「一位女孩弹吉他」的图像为例,传统模型可能仅生成「女生在弹吉他」的粗略描述,而 CoD 会分为五个有序阶段,逐步深化理解:


1.提取主体内容

  • 首先识别图像的核心语义元素,如:「一位红发女性坐在床上,怀中抱着一把木吉他」。
  • 这一阶段确保模型对主要对象有清晰把握,为后续分析打下基础。

2.分析细节信息

  • 进一步观察细节属性,如:「吉他为浅色指板的经典木制款式,光线柔和,渲染出温暖氛围」。
  • 捕捉纹理、颜色、光影等低层信息,增强描述的丰富性与精度。

3.考虑关系属性

  • 描述图像中元素之间的交互关系,如:「她坐在床上,笔记本放在小桌上,灯串和挂饰点缀背景」。
  • 强化对空间布局与语义结构的建模。

4.检查边缘/背景内容

  • 不忽略次要信息,如:「房间内有梳妆台、墙面装饰等背景元素」。
  • 补充场景语义,完善整体理解。

5.整合为连贯描述

  • 将上述观察统一组织为一段完整、逻辑清晰的自然语言描述。

通过 CoD,模型能够逐步「构建图像语义结构」,实现从感知到理解的飞跃,显著提升图文对齐的质量与逻辑性。


结构化解题思路(Structured Chain-of-Thought, CoT):让模型「解题像学霸一样」


Structured CoT (结构化思维链)是一种任务驱动的推理框架,支持模型在面对复杂问题时进行分步推理、信息整合与因果判断,广泛应用于数学计算、逻辑问答、跨模态推理等任务。


例如,在一道几何题中,传统模型可能直接尝试「猜测答案」,而 Structured CoT 的解题过程如下:


1.明确任务目标

  • 识别问题类型,例如「求三角形某边的长度」。

2.提取关键信息

  • 从图像中提取直角三角形、垂线、边长等必要条件。

3.逻辑推理分析

  • 判断相似三角形关系,列出比例公式并代入数值。

4.总结计算得解

  • 通过计算得出答案,例如「选项 C」。

Structured CoT 让模型具备类人的「解题能力」,不仅能处理复杂的数理任务,还能支持跨模态因果推断,奠定模型认知系统化的基础。


能力全面跃升:SICOG 的三大关键优势


借助 CoD 和 Structured CoT,SICOG 不仅构建了结构化的感知与推理流程,更在训练范式上实现了根本性突破,具备以下三大核心优势:


1.显著降低对高质量数据的依赖

  • 仅需少量种子数据即可启动,通过自生成数据循环优化,实现大规模多模态数据的「零标注」扩展。

2.实现动态认知进化

  • 打破传统「一训定终身」的预训练模式,支持模型在使用过程中持续学习、能力不断升级,具备「终身学习」特征。

3.感知与推理一体优化

  • 不再局限于感知能力的提升,SICOG 在预训练阶段即融合「感知 + 推理」,模拟人类认知流程,使模型对图文、图问等复杂任务具备更强泛化与应变能力。

实验验证:SICOG 实现模型能力全面提升


为了验证 SICOG 框架的有效性,研究在 12 个主流多模态评测集上进行了系统性评估,涵盖图表理解、数学推理、抗幻觉能力等多个关键维度。实验结果表明,SICOG 能显著提升模型的综合表现,具体成果如下:


综合性能稳步提升

  • 在整体评测中,模型平均表现提升 2%–4%

  • 尤其在依赖多步推理的任务中表现突出,如 ScienceQA,展现出更强的逻辑推理与跨模态理解能力。

幻觉控制能力增强

  • 在 POPE 等抗幻觉评测中,模型错误率下降了 1%–2%

自生成数据推动持续进化

  • 随着自生成数据量从 11.8 万条提升至 21.3 万条,模型性能持续上升,呈现出良好的扩展性与学习能力;

  • 表明 SICOG 的「自我进化机制」不仅可行,而且具备高度可扩展性。

超越主流预训练方法

  • SICOG 在多个任务中表现甚至超过了主流的 strong-to-weak distillation 和 multi-agent collaboration 方法


实验还表明,基础模型性能越强,其在自我进化过程中的能力提升也越显。例如,LLaVA-Qwen2-7B-UHD 相较于 LLaVA-Llama3.1-8B-UHD,性能提升幅度高出约 50%。这表明:强大的基础能力不仅决定模型的初始表现,更显著增强其后续自学习与优化能力


这一现象类似于人类学习中的「马太效」——「学霸更会自学」。具备更优初始结构与知识表示的模型,能够更高效地利用数据、激发潜力,在持续进化中取得更大进步。



研究进一步表明,基于合成数据的预训练显著提升了模型的基础认知能力,从而强化了后续微调效果。这一结果再次验证了:预训练、推理阶段的计算扩展与后训练优化三者之间存在高度协同关系。只有打通这三环节,才能实现模型能力的持续跃升与高效进化。



此外,研究发现,SICOG 生成的合成数据同样遵循规模法则(scaling law):模型能力随着数据量的增加持续提升。这进一步证明了自生成数据在模型进化过程中的有效性与可扩展性。



作者提出了一种变体方法:在第一阶段的后训练增强中,以偏好学习(Preference Learning)替代传统的监督微调(SFT),以进一步强化模型的基础能力。


实验结果表明,偏好学习在提升模型泛化能力方面优于 SFT,尤其在处理复杂任务时表现更为稳健。这一结果从实证层面验证了长期以来的观点:强化学习范式在特定任务中相较于监督微调更具优势



细粒度图像感知能力显著增强,在细节识别与关系属性捕捉方面表现出更高的准确性与鲁棒性。



多模态理解与推理能力显著提升


展望:预训练的新边疆 —— 从静态训练到动态进化


SICOG 通过构建一个涵盖「数据生成 → 模型训练 → 能力进化」的闭环体系,突破了传统预训练对高质量人工标注数据的依赖,展现出类人认知发展的潜力。该框架不仅实现了模型的自我学习与持续优化,也为迈向真正自主学习型智能体奠定了坚实基础。


在当前研究中,SICOG 通过引入 Chain-of-Description(CoD)并配合 Structured Chain-of-Thought(Structured CoT)的推理机制,显著增强了多模态模型的感知与推理能力。然而,这一进展仍只是通向完全自主学习的起点。


未来,若能进一步引入环境反馈机(如具身智能场景)与持续优化机制,模型将有望具备终身学习的能力,实现从「被动学习」向「主动成长」的跃迁。在与环境的持续交互中,模型不仅可以利用自身生成的数据进行自我优化,更能够主动识别知识盲区、动态调整学习策略,从而在复杂任务与多变环境中不断进化、持续提升。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

预训练奠定基础,推理阶段扩展应用,后训练优化提升,三者缺一不可。预训练如同学习基础知识,推理是运用知识解决问题,后训练则是根据实践经验进行反思和改进。如果预训练不足,模型可能缺乏解决问题的基本能力;如果推理阶段计算扩展不够,模型无法处理复杂任务;如果后训练优化不足,模型可能停滞不前,无法适应新环境。三者不平衡会导致模型能力发展受限。

CoD 就像给模型配了一副“放大镜”和“解剖刀”,让它能逐层、细致地观察图像,从主体到细节,再到关系和背景,最终构建一个完整的认知。这避免了模型只抓住图像的表面信息,而忽略了深层含义。不过,CoD 也可能过于依赖预设的步骤,如果图像内容比较抽象或者不符合常理,模型可能会“卡壳”。

谢邀,CoD这个东西,有点像咱们小时候做的阅读理解。先让你找中心思想(提取主体),再让你抠细节(分析细节),然后分析段落之间的关系(考虑关系),最后总结全文(整合描述)。这样做的好处是防止一上来就跑偏,能更准确地get到作者想表达的意思。但是,如果图像本身就很抽象,或者有歧义,CoD可能就会“钻牛角尖”,反而理解错了。而且,CoD的步骤是固定的,缺乏灵活性,不能根据图像的内容进行调整。

自生成数据就像是“自己给自己出题”,可以缓解对人工标注数据的依赖,但完全替代可能还不行。毕竟,模型自己生成的数据,质量可能参差不齐,甚至会引入偏差。为了避免这种情况,需要对自生成的数据进行严格的筛选和过滤,确保数据的多样性和可靠性。

我觉得自生成数据有点像“闭门造车”。虽然可以降低对外部数据的依赖,但也容易陷入“信息茧房”。模型可能会过度拟合自己生成的数据,导致泛化能力下降。因此,在利用自生成数据的同时,还需要保持开放的心态,定期引入外部数据进行校正,避免模型走向极端。

链式描述通过五个有序阶段,引导模型逐步深化对图像的理解:提取主体、分析细节、考虑关系、检查边缘背景、整合连贯描述。这种结构化的感知方式,确保模型能更全面、逻辑严密地理解图像,从而提升图文对齐的质量。但CoD的局限性在于,它依赖预定义的步骤,对于不符合常规模式的图像,可能难以有效处理。此外,CoD的计算成本也可能较高,尤其是在处理复杂图像时。

我觉得这种协同很像一个团队协作。预训练是团队成员学习专业技能,推理是团队成员共同解决问题,后训练是项目复盘总结经验。只有每个成员都具备扎实的基础,团队才能高效协作,并在实践中不断提升。如果团队成员能力参差不齐,或者缺乏沟通和反思,项目很容易失败。

自生成数据为模型提供了持续学习的机会,但无法完全替代人工标注数据。人工标注数据通常具有更高的质量和准确性,能够为模型提供更清晰的指导。自生成数据可能存在潜在风险,如模型重复学习已掌握的知识、产生偏差或幻觉等。为了应对这些风险,需要设计有效的筛选机制,例如本文提到的“自我一致性投票机制”,同时可以引入人工干预,对自生成数据进行校正和补充。

这就像盖房子,预训练是打地基,推理是盖楼的过程,后训练是装修。地基不稳(预训练不足),楼盖不高(推理受限),装修再好也只是表面功夫。三者协同才能把房子盖好、住舒服。如果预训练不足,后续的推理和优化可能事倍功半,甚至出现“幻觉”等问题。