ICML 2025:Token-Level Editing——避免合成文本数据训练中模型崩溃的新策略

ICML 2025研究揭示了合成数据导致模型崩溃的问题,并提出Token-Level Editing策略,通过在真实数据上进行细粒度编辑,有效提升模型性能,避免模型崩溃。

原文标题:ICML 2025 | 如何在合成文本数据时避免模型崩溃?

原文作者:机器之心

冷月清谈:

本文介绍了一项在 ICML 2025 会议上提出的研究,该研究针对生成式AI模型训练中使用合成数据可能导致的“模型崩溃”问题,进行了系统性剖析,并提出了一种名为 Token-Level Editing 的创新数据生成策略。研究发现,在高比例合成数据参与的预训练中,即使只进行一次,也可能导致模型性能显著下降。这种“非迭代式模型崩溃”源于合成数据在分布覆盖和特征集中度方面的结构性缺陷。Token-Level Editing 的核心思想是在真实数据上进行细粒度的“微编辑”,即仅替换模型对某些 token “过度自信”的部分,从而构建出更稳定、泛化性更强的“半合成”数据。理论分析表明,此方法可以有效控制测试误差的增长,避免模型崩溃。实验结果也证明,无论是在预训练、持续预训练还是监督微调阶段,使用 Token-Level Editing 生成的数据都优于纯合成数据。

怜星夜思:

1、Token-Level Editing 方法中,如何确定哪些 token 是模型 “过度自信” 的?这个阈值 p 的选择对最终模型性能有多大影响?
2、Token-Level Editing 相比于完全使用真实数据,优势在哪里?在哪些场景下,这种“半合成”数据会比纯真实数据更有效?
3、文章中提到 Token-Level Editing 在多个任务上都取得了不错的成果,那么这种方法有没有局限性?例如,它可能不适用于哪些类型的文本数据或哪些特定的应用场景?

原文内容


随着生成式人工智能技术的飞速发展,合成数据正日益成为大模型训练的重要组成部分。未来的 GPT 系列语言模型不可避免地将依赖于由人工数据和合成数据混合构成的大规模语料。


然而,这一趋势也带来了严峻挑战:合成数据如果不加控制地使用,可能引发 “模型崩溃”(Model Collapse)问题。即便仅在一次训练中混入较多比例的合成数据,也可能导致模型性能急剧下降,难以泛化到真实世界的数据中。



最近在 ICML 2025 会议上,来自上交大等研究机构的研究团队系统性地剖析了这一问题,并提出了一种创新的数据生成策略,Token-Level Editing,旨在有效避免模型崩溃。



  • 论文标题:HOW TO SYNTHESIZE TEXT DATA WITHOUT MODEL COLLAPSE?

  • 论文链接:https://arxiv.org/pdf/2412.14689


不同于直接使用生成数据,该方法在真实数据上引入细粒度的 “微编辑” 操作,从而构建出结构更稳定、泛化性更强的 “半合成” 数据,有效规避了模型崩溃风险。



非迭代式模型崩溃现象识别


为了揭示合成数据对语言模型训练的影响,研究团队系统分析了不同合成比例下的模型训练行为。实验显示,即使只进行一次预训练,在数据中混入高比例的合成数据,也会显著导致性能下降。这种现象被称为非迭代式模型崩溃(Non-iterative Collapse),并在多个语言理解任务上得到了验证。



通过进一步统计分析,研究发现,合成数据相较于人工数据存在两类结构性缺陷:


  • 分布覆盖收窄:缺乏低频与长尾样本,难以体现语言的多样性。

  • 特征过度集中:n-gram 等语言特征分布密度过高,易导致模型过拟合。



Token-Level Editing

以编辑替代纯生成

更精细、更高质量的数据生成方式


为了解决上述问题,作者团队提出了一种 Token-Level Editing 方法不依赖生成整段文本,而是在训练数据中仅针对模型 “过度自信” 的 token 进行替换,定义如下编辑规则:



其中,图片 是模型对 图片 的条件概率估计,p 是编辑阈值,图片 是从先验分布中重新采样的新 token。这一过程保留了原始数据的长尾结构,仅对 “重复高置信度区域” 进行微调。


理论结果

测试误差有限上界,避免模型崩溃


作者进一步构建了线性回归分析框架,并证明 Token-Level Editing 过程的测试误差存在固定上界:



相比模型崩溃中的误差线性上升,这里误差被严格约束,不随迭代轮次增长。其关键原理在于:


每轮编辑操作只对一小部分样本进行调整,模型始终保持对真实数据分布的覆盖,避免了分布转移和特征过度集中。


进一步地,如果编辑矩阵 M_n 的影响强度递减(满足 图片),则最终误差上界进一步优化为:



该理论说明,即使在多轮训练中,Token-Level Editing 依然能够从数学上阻止误差的无界增长,实现 “理论上不崩溃” 的数据增强路径。


实验结果

从预训练到微调全面验证方法有效性



为全面验证 Token-Level Editing 的有效性,研究团队在语言模型训练的三个关键阶段进行了系统实验:


  • 预训练阶段(Pre-training):在通用任务如 PIQA、BoolQ、Winogrande 等 benchmark 上,模型在引入编辑数据后表现持续优于纯合成数据方案。例如在 OLMo-1B 上,整体任务平均分提升了 +0.36 个百分点。

  • 持续预训练阶段(Continual Pre-training):在生物医药、金融、数学等专业任务中,Token-Level Editing 带来了跨域的泛化提升。例如在 PubMedQA 任务中,准确率提升高达 +13.6%。

  • 监督微调阶段(Supervised Fine-tuning):在指令理解与代码推理等复杂任务中,编辑数据同样展现了对多样语言指令的强鲁棒性。以 LLaMA-3 为例,平均提升 +0.4~0.5%,且在多个任务上保持一致性优势。


此外,为验证方法的稳健性,研究还进行了多轮消融实验,包括:


  • 编辑阈值 p 的变化范围;

  • 多种采样策略(Top-k、Top-p、拒绝采样);

  • 不同 token 置信度分布下的替换比例。


结果显示:在不增加训练数据规模的前提下,该方法依然具备良好可控性与可迁移性,具备强大的实际落地潜力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

同意楼上的看法。感觉这种方法更适合于优化现有模型的性能,而不是从零开始创造新的内容。另外,如果原始数据的质量非常差,或者数据本身就存在严重的偏差,那么 Token-Level Editing 可能也无能为力。

我有一个疑问,Token-Level Editing 在处理长文本时效果如何?如果需要编辑的 token 分布在文本的不同位置,这种方法是否还能保持文本的连贯性和逻辑性?感觉可能会引入一些语义上的不一致。

我理解是,真实数据可能存在标注错误或者噪声,导致模型学习到错误的模式。Token-Level Editing 可以理解为一种“纠错”机制,通过替换过度自信的 token,来修正这些错误,从而提高模型的鲁棒性。感觉在一些数据质量不高的场景下会很有用。

我觉得这个方法可能不太适用于需要高度创造性和想象力的文本生成任务,比如诗歌创作、小说续写等。因为 Token-Level Editing 本质上是对现有数据的微调,很难产生全新的、意想不到的表达。

我觉得还有一个优势是“效率”。纯真实数据需要花费大量时间和精力去收集和标注,而 Token-Level Editing 在现有数据的基础上进行修改,大大降低了成本。尤其是在一些垂直领域,获取高质量真实数据非常困难,这种方法可能是一个不错的替代方案。

这个让我想起了GAN里面的判别器,感觉有点像。阈值p就像是判别器的置信度,超过这个置信度就认为是生成的假数据,需要进行修正。但是具体怎么选,还是要看实验结果,感觉没有一个通用的标准。

同问!感觉这个阈值大小很关键,设的太小可能编辑的太多,失去了原始数据的结构,设的太大了又起不到修正过度自信的作用。文章里面说做了实验,我去看看原文,回来分享。

问的好!文章里提到会定义一个编辑规则,当模型对某个token的条件概率估计高于编辑阈值p时,就认为模型对这个token“过度自信”了。阈值p的选择肯定是会影响模型性能的,文章里也做了消融实验,探讨了p的变化范围对模型性能的影响,结论是在不增加训练数据规模的前提下,该方法有良好的可控性。

Token-Level Editing 的优势在于它可以有控制地引入变化,避免模型完全依赖真实数据的固有偏见。在数据增强方面,它创造出一些在真实数据集中可能缺失但又合理的样本,从而提高模型的泛化能力。例如,在生物医药领域,有些罕见疾病的数据很难获取,用这种方法可能可以生成一些有用的“半合成”数据。