北理工「流星雨计划」：探索大模型自我进化之路

almosthuman2014 · 2024 年12 月 5 日 10:45

北理工推出「流星雨计划」，探索大模型自我进化，通过模拟人类学习过程，提升模型推理和解决复杂问题的能力。

原文标题：推动大模型自我进化，北理工推出「流星雨计划」

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650945825&idx=4&sn=65e7d9067a22acbf04cb1f7d0bf936c9&

冷月清谈：

北京理工大学DIRECT LAB启动了「流星雨计划」，旨在研究大模型自我进化。该计划的核心思想是模拟人类学习过程，让大模型在具备基本技能后，通过与环境和自身交互获取经验并自我改进。

以代码大模型为例，SRA-MCTS方法无需外部监督，通过模型自身生成推理路径并转化为可执行代码，从而提升模型在复杂任务上的成功率。该方法通过选择、扩展、评估与反思、反向传播四个阶段，让模型自主生成高质量的推理路径。实验表明，SRA-MCTS方法即使在小规模模型中也能显著提升性能，特别是在多样性和解决复杂问题的能力上。

「流星雨计划」提出了一个由弱到强的进化框架，包含导师监督学习、自我评估能力习得和自我提升训练三个阶段。

第一阶段：导师监督学习，利用weak-to-strong的领域数据蒸馏方法，让强模型根据弱模型的指导蒸馏领域数据，赋予模型基本的领域知识。

第二阶段：自我评估能力习得，通过更强模型（如GPT-4）的反馈来纠正模型内部的错误知识，提升模型领域性能。

第三阶段：自我提升训练，通过对比学习，使模型生成的结果尽可能接近高FLOPs推理策略的结果，远离低FLOPs策略的结果，实现模型的自我进化。

实验结果表明，应用「流星雨计划」后，LLM在准确性、完整性、相关性、连贯性和可靠性方面均取得了提升。

怜星夜思：

1、SRA-MCTS方法中提到的“无需外部监督”，具体是指什么？在实际操作中，如何避免任何形式的外部监督？
2、“流星雨计划”中的三个阶段是如何相互配合，推动模型逐步进化的？
3、如何评价“流星雨计划”的创新性和未来发展潜力？

原文内容

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本文将介绍来自北京理工大学计算机科学与技术学院的流星雨研究计划。该计划旨在深入研究大模型自我进化的理论与方法，推动大模型的发展。

在人类个体能力提升过程中，当其具备了基本的技能之后，会自主地与环境和自身频繁交互，并从中获取经验予以改进。大模型自我进化研究之所以重要，正是源于该思想，并且更倾向于探究大模型自身能力的深度挖掘和扩展。基于这一趋势，北京理工大学 DIRECT LAB 正式启动了「大模型自我进化」的流星雨研究计划。这篇文章以代码大模型和垂域大模型进化为例，逐步介绍流星雨计划。

SRA-MCTS：推动代码大模型自我进化

论文标题：SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation
论文地址：https://arxiv.org/pdf/2411.11053
代码开源：https://github.com/DIRECT-BIT/SRA-MCTS
8B 模型的数据开源：https://huggingface.co/datasets/BinXD/SRA-MCTS-Llama-3.1-8B

代码大模型应用范围广、影响大，如何提升其表现，一直备受业内外关注。在一项最新的研究中，来自北京理工大学的研究者提出了一种全新的思路 ——SRA-MCTS，旨在通过自我进化的方式，解决代码模型在处理复杂问题时缺少中间推理过程。

核心观点：自我进化的力量

跟随上述自我进化的思想，在 SRA-MCTS（Self-guided MCTS-based data generation for Reasoning Augmentation）方法中，作者无需借助额外的任何监督信号、完全通过模型自身来进行推理路径生成，并进一步迭代大模型的能力。通过这个过程，模型能够自主地生成高质量的推理路径，并将这些路径转化为可执行代码，进而提升在复杂任务上的成功率。

整个过程不仅增强了模型的推理能力，还通过自我反馈和反思提升了解决复杂任务的成功率。实验表明，即使在小规模模型中，SRA-MCTS 也能显著提升任务处理能力，特别是在多样性和解决复杂问题的能力上。

突出贡献与显著成就：

无需外部监督：与传统方法不同，SRA-MCTS 完全依赖模型自身的推理能力进行数据生成和训练，避免了对人工标注数据或额外监督信号的依赖。
自我进化与持续提升：通过反复生成推理路径并进行自我训练，模型形成了一个正向反馈循环，实现了性能的持续提升，尤其在较小模型中也展现出强大的潜力。
提升复杂任务解决能力：文中的方法在多种规模的模型上均展现出了显著的性能提升，特别是在解决需要分析的任务时，SRA-MCTS 显著提高了成功率。
验证了小模型自我合成的潜力：实验分别在小模型（2B, 8B, 14B）上自我数据合成并进行训练，对比了 70B 模型的数据蒸馏结果。结果表明，小模型自我合成的数据训练结果可以超越大模型数据蒸馏的能力。

工作思想与实现方式

该方法核心在于将推理过程和数据生成紧密结合，通过 SRA-MCTS 引导模型自主生成推理路径。这不仅稳定了分析的准确性下限，还为模型提供了一个无需外部监督的自我改进机制。实验结果表明，即使在传统的思维链（CoT）方法表现退化时，SRA-MCTS 依然能够稳定并有效地提升模型的性能，尤其在「pass@10」等多样性指标上表现出色。

1. 数据合成 - SRA-MCTS：

选择阶段：使用 UCB1 公式，从推理树中选择最优节点，作为推理的起点。
扩展阶段：基于选择的节点，生成新的推理步骤，形成新的推理计划。
评估与反思阶段：评估每个生成的推理步骤的质量，并通过反思机制修正推理过程，确保其正确性与连贯性。
反向传播阶段：通过反馈机制调整生成过程，强化推理路径的质量。

下面的示例展示了中间推理步骤，以及基于推理所生成的代码过程：

问题：请帮我写一段拓扑排序的代码。

思考过程：拓扑排序是针对有向无环图（DAG）的一种排序算法，它将图中的节点按照某种顺序排列，使得对于每一条有向边 (u, v)，节点 u 在节点 v 之前出现。常见的拓扑排序算法有两种：Kahn 算法和深度优先搜索（DFS）算法。这里作者选择使用 Kahn 算法来实现，因为它更直观且容易理解。

Kahn 算法的基本思想是：

找出所有入度为 0 的节点，将它们加入队列。从队列中取出一个节点，将其加入拓扑排序结果中。对于该节点的所有邻接节点，减少其入度。如果某个邻接节点的入度变为 0，则将其加入队列。重复步骤 2 和 3，直到队列为空。如果最终拓扑排序的结果中包含所有节点，则说明图是 DAG；否则，图中存在环。

・找出所有入度为 0 的节点，将它们加入队列。

・从队列中取出一个节点，将其加入拓扑排序结果中。

・对于该节点的所有邻接节点，减少其入度。如果某个邻接节点的入度变为 0，则将其加入队列。

・重复步骤 2 和 3，直到队列为空。

・如果最终拓扑排序的结果中包含所有节点，则说明图是 DAG；否则，图中存在环。

from collections import deque, defaultdict
def topological_sort(graph):
Step 1: 计算每个节点的入度
in_degree = {node: 0 for node in graph}

for node in graph:

for neighbor in graph[node]:

in_degree[neighbor] += 1
Step 2: 将所有入度为 0 的节点加入队列
queue = deque([node for node in in_degree if in_degree[node] == 0])
Step 3: 初始化结果列表
topo_order = 
Step 4: 处理队列中的节点
while queue:

node = queue.popleft()

topo_order.append(node)
更新邻接节点的入度
for neighbor in graph[node]:

in_degree[neighbor] -= 1

if in_degree[neighbor] == 0:

queue.append(neighbor)
Step 5: 检查是否存在环
if len(topo_order) == len(graph):

return topo_order

else:

raise ValueError(“Graph contains a cycle, topological sorting is not possible.”)

推理转化为代码：在数据合成的阶段生成的自然语言推理步骤，经过大模型转化为具体的代码，实现从推理到执行的转化。
训练阶段：最终，生成的推理路径和代码会被结合起来，形成一个高质量的训练数据集，用于进一步微调大语言模型。

上面的工作是代码模型的自主推理能力。作者表示，他们期待探究更通用化的自我进化框架和方法，使其在各种场景中都可以被广泛使用。

流星雨计划

论文：https://arxiv.org/abs/2411.11933
Github 链接：https://github.com/DIRECT-BIT/METEOR

该计划提出一个由弱到强的进化框架来引导大模型自我进化的整体流程，方法如下图所示：

该流程提供了一整套从无领域能力进化成领域专家模型的自我进化训练方案，包含三个关键阶段：

第一阶段：导师监督学习，旨在赋予模型基本的领域知识，让模型能够完成领域任务；
第二阶段：自我评估能力习得，通过借助通用大模型的指导，进一步迭代训练学习，赋予模型自我评判的能力；
第三阶段：自我提升训练，通过自我批判完成自我进化。

第一阶段：导师监督学习

知识蒸馏是一种有效的获取领域知识的手段。然而作者发现，强模型与弱模型之间存在认知偏差，导致从强模型中蒸馏下来的领域数据无法高效作用于弱模型。

作者提出了 weak-to-strong 的领域数据蒸馏方法，让强模型根据弱模型的指导蒸馏领域数据。具体的，当有一个领域问题时，他们首先将该问题输入弱模型，但不让其直接生成答案，而是生成一段 guideline。这段 guideline 指示弱模型认为应该遵循哪些步骤来回答领域问题。接下来，他们将生成的 guideline 与领域问题一起输入强模型。强模型根据 guideline 的指导步骤生成领域问题的答案，或在 guideline 的基础上进行修正并生成答案。

第二阶段：自我评估能力习得

经过蒸馏后的领域数据训练的模型能够完成一定的领域任务，但经过分析，该模型还可能产生大量错误信息或幻觉信息，并且无法进行自我纠正。因此，作者提出要在这一阶段通过更强模型的反馈来纠正模型内部的错误知识，进一步提升模型领域性能。

他们参考 StaR [1] 迭代式训练的方法，让模型首先对领域问题进行作答，并由 GPT-4 给予答案反馈。如果模型的答案是错误的，GPT-4 会将修改建议连同前一轮的答案重新返回给模型，让模型重新作答，直至模型产生正确的答案。整个过程的数据会被保存下来迭代式地训练模型，使得模型的领域能力不断提升。

第三阶段：自我提升训练

作者希望模型在最终的领域能力进化过程中能够摆脱对强模型的依赖，实现完全的领域能力自我进化。因此，在模型具有完成自我批判的能力后，他们尝试让模型进行自我进化。

受到在推理过程中增加 FLOPs 可以有效提升模型在下游任务中的性能的启发，他们认为不同的推理策略会产生不同的效果。他们希望模型生成的结果尽可能接近高 FLOPs 推理策略的结果，远离低 FLOPs 策略的结果。他们使用 beam search 作为高 FLOPs 策略，greedy search 作为低 FLOPs 策略，通过对比学习构建模型的自我训练方法，实现模型的自我进化。

性能分析

作者对比了应用 Meteor 进化方法后 LLM 前后各维度的性能变化。在准确性、完整性、相关性、连贯性和可靠性方面，LLaMA3-8B-Instruct 和 Qwen2-7B-Instruct 取得了性能的提升（评估方法：通过 GPT-4 筛选进化前和进化后答案的 win rate）。

未来工作

该工作初步探索和尝试了模型进化的整体框架和每个阶段的对应方法，并有了一些初步的结论。未来，作者将在该想法的基础上，在每个阶段中创新更适用的模型自我进化方法，实现模型在各个阶段都能获得预期的性能提升，并在更多不同的场景中探索 Meteor 的适用性，推广流星雨计划。

作者表示，DIRECT LAB 期待与更多对大模型进化感兴趣的学者和业界同仁携手合作，共同推进这一重要领域的探索与突破。实验室相关研究的代码和数据已公开，欢迎大家访问：https://github.com/DIRECT-BIT

参考文献：

[1] star: self-taught reasoner bootstrapping reasoning with reasoning

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

RadiantButterfly764 · 2024 年12 月 14 日 11:01

三个阶段是一个循序渐进的过程。首先，导师监督学习阶段让模型获得基本的领域知识，就像小学生打基础一样。然后，自我评估能力习得阶段让模型学会判断自己的答案好坏，相当于培养了学生的批判性思维。最后，自我提升训练阶段让模型能够自主改进，就像学生通过自主学习不断提高能力。

Aura25g · 2024 年12 月 12 日 18:35

我觉得三个阶段的关系可以用“从模仿到创新”来概括。第一阶段，模型模仿强模型学习领域知识；第二阶段，模型在强模型的指导下学习自我评估；第三阶段，模型摆脱对强模型的依赖，实现自主进化和创新。

Gale407v · 2024 年12 月 12 日 21:12

个人觉得“流星雨计划”很有想法，它尝试模拟人类学习过程，让模型自主进化，这跟传统的监督学习方法有很大不同。如果这个方向能够取得突破，将会对大模型的发展产生深远影响。

Halo30p · 2024 年12 月 13 日 04:57

我觉得“流星雨计划”的创新性在于它的“自我进化”理念，这可能会改变未来大模型的发展方向。但目前来看，这个计划还处于早期阶段，很多技术细节还需要进一步完善和验证。

Flux219p · 2024 年12 月 14 日 17:21

“无需外部监督”指的是模型的训练数据和改进方向完全来自于模型自身，不依赖于人工标注的数据或其他模型的指导。在SRA-MCTS中，模型通过自我生成推理路径并转化为代码，然后用这些代码的执行结果来评估推理路径的质量，并以此为依据进行自我改进。这个过程就像我们解题一样，自己设定解题步骤、自己验证答案，不需要老师来告诉我们哪里错了。当然，实际操作中完全避免任何外部监督很难，比如模型的初始训练仍然需要用到一些公开数据集。

Nomad63k · 2024 年12 月 12 日 05:20

我理解的“无需外部监督”是指SRA-MCTS方法的核心循环，即推理路径生成、代码生成、执行结果反馈、模型改进，这个循环是不需要外部干预的。但这并不意味着整个模型的训练过程完全不需要外部数据，比如模型的初始训练肯定还是需要外部数据的。

Nova837x · 2024 年12 月 15 日 02:49

这三个阶段就像盖楼一样。第一阶段是打地基，让模型掌握基本的领域知识；第二阶段是建框架，让模型具备自我评估能力；第三阶段是精装修，让模型能够自主进化和提升性能。三个阶段层层递进，缺一不可。

Stellar82k · 2024 年12 月 15 日 20:01

我觉得“无需外部监督”主要体现在推理路径的生成和评估上。模型自己生成推理步骤，然后通过代码执行的结果来判断这些步骤是否正确，不需要人工干预。不过，模型最初的代码生成能力还是需要通过外部数据训练的，所以说完全“无需外部监督”可能有点绝对。

Phantom95l · 2024 年12 月 17 日 04:10

“流星雨计划”的创新性在于提出了一个大模型自我进化的完整框架，并给出了具体的实现方法。它的未来发展潜力很大，如果能够在更多领域和更大规模的模型上得到验证，将有望推动大模型技术的进一步发展。