GPT之父新作:Token级数据过滤,从预训练阶段为大模型做“脑部手术”

GPT之父新作:提出Token级数据过滤方法,让大模型在预训练阶段就切除危险知识,大幅提升安全性。

原文标题:GPT之父Alec Radford新作:给大模型做「脑部手术」,危险知识重学成本暴增7000倍

原文作者:机器之心

冷月清谈:

Alec Radford 联合 Anthropic 和斯坦福的研究者,提出了一种在预训练阶段通过 Token 级别的数据过滤,直接从模型“大脑”深处切除危险知识的新方法。研究表明,这种方法不仅可行,而且效果随着模型规模的增加而显著增强。对于 18 亿参数的模型,Token 级过滤能导致目标领域的学习效率下降 7000 倍。研究者通过损失掩码和移除两种 Token 级过滤策略,在移除“医学知识”的同时保留“生物学知识”,实验证明 Token 级过滤构成了对文档级过滤的帕累托改进。对抗性微调实验表明,经过 Token 级过滤预训练的模型表现出极强的韧性,远超机器遗忘算法。此外,研究还发现经过 Token 级过滤的模型在接受“拒绝训练”时,表现反而优于未过滤的基线模型。最后,文章还介绍了一种基于稀疏自编码器的弱监督流程,用于低成本地实现 Token 级过滤。这项研究为构建更安全的 AI 模型提供了一种新的思路,即在预训练阶段就进行干预,通过制造知识真空,训练出更听话、更安全的模型,为 AI 安全架构提供了一种纵深防御的策略。

怜星夜思:

1、文章提到Token级过滤能有效降低大模型学习危险知识的效率,那这种过滤方法会不会也影响模型学习和掌握新知识的速度?我们应该如何平衡安全性和学习能力?
2、文章中提到,Token级过滤后的模型在“拒绝训练”时表现更好,这是不是意味着我们可以通过类似的方法,让AI在面对道德困境时做出更符合人类价值观的选择?
3、文章提到使用稀疏自编码器(SAE)进行弱监督,降低了Token级过滤的成本。那除了SAE,还有没有其他更高效或更可靠的弱监督方法,用于识别和过滤大模型中的危险知识?

原文内容

图片
编辑|Panda

Alex Radford,出生于1993 年 4 月,即将 33 岁,但已经拥有超过 32 万的引用量。因为这位「独立研究员」不仅是 GPT、GPT-2 和 CLIP 的第一作者,同时还参与了 GPT-3、GPT-4、PPO 算法等多个重大研究项目。



近日, Anthropic 和斯坦福研究者 Neil Rathi 与这位传奇研究者联合发布了一篇新论文,并得到了一些相当惊人的新发现。


在这项研究中,他们挑战了当前大模型安全领域的一个核心假设。长期以来,业界普遍认为要在模型发布后通过 RLHF 或微调来限制其危险行为。但 Neil Rathi 和 Alec Radford 提出了一种更本质的解法:在预训练阶段,通过 Token 级别的数据过滤,直接从「大脑」深处切除危险知识。



  • 论文标题:Shaping capabilities with token-level data filtering

  • 论文地址:https://arxiv.org/abs/2601.21571

  • 代码地址:https://github.com/neilrathi/token-filtering


这项研究不仅证明了这种方法的可行性,更揭示了一个令人兴奋的 Scaling Law:模型越大,这种过滤机制的效果越好。


对于 18 亿参数的模型,Token 级过滤能导致目标领域的学习效率下降 7000 倍。



这意味着,攻击者想要恢复被删除的能力,将付出难以承受的算力代价。下面我们就来详细看看这项研究。


为什么我们需要在预训练阶段「动手术」?


目前,减少大语言模型有害能力(如制造生物武器、策划网络攻击)的主流方法大多是事后干预(Post hoc)。无论是 RLHF(基于人类反馈的强化学习)还是最近兴起的「机器遗忘」(Machine Unlearning),本质上都是在模型已经学到了所有知识之后,再通过一层「护栏」来抑制其输出。


这种做法存在一个巨大的安全隐患:猫鼠游戏。


一旦基础模型掌握了某种能力,单纯的对齐微调很难将其彻底根除。攻击者可以通过「越狱」或对抗性微调轻松绕过这些防御,重新激活模型深层的危险能力。


这就好比一个人已经学会了造炸弹,你只是命令他「不要说」,但只要换一种问法或者施加一点压力,他依然能造出来。


Rathi 和 Radford 的思路则截然不同:他们主张在预训练阶段就进行干预,通过调整训练数据,让模型根本就没有机会学到这些危险能力。


为了验证这一思路,他们选择了一个具有代表性的代理任务:移除「医学知识」(作为危险知识的替身),同时尽可能保留「生物学知识」(作为有益知识的替身)。这是一个极具挑战性的任务,因为医学与生物学在概念上高度重叠,很难在切除前者的同时不伤害后者。


Token 级过滤:手术刀般的精准


传统的预训练数据清洗通常是基于「文档」级别的。如果一篇文章包含有害内容,整篇文章就会被丢弃。这种做法不仅浪费数据,而且极其粗糙。


这篇论文的核心创新在于引入了 Token 级别的过滤机制。研究者认为,危险知识往往并不分布在整篇文档中,而是潜伏在特定的词句序列里。


团队测试了两种 Token 级过滤策略:



  1. 损失掩码(Loss Masking):模型在训练时可以看到危险的 Token,但在计算梯度和更新权重时,这些 Token 产生的损失会被忽略。这保证了上下文的连贯性,但切断了模型从中学到知识的路径。

  2. 移除(Removal):更加激进的做法,直接将危险 Token 替换为特殊的 <hidden> 标记。这不仅切断了梯度,甚至剥夺了模型看到这些词的机会。


实验结果表明,Token 级过滤构成了对文档级过滤的帕累托改进。在同等程度地去除医学知识的前提下,Token 级过滤对生物学等通用知识的保留效果显著优于文档级过滤。这就像是用手术刀精准切除肿瘤,而不是直接截肢,最大限度地保留了健康的机体组织。



7000 倍算力阻滞:安全性的 Scaling Law


这项研究最令人震撼的发现在于「过滤」与「规模」的关系。


通常我们担心,随着模型越来越大,它们会变得越来越「聪明」,从而能够通过哪怕一丁点数据泄漏就学会危险知识。


但实验数据给出了相反的结论:Token 级过滤的效果随着模型规模的增加而显著增强。



研究团队引入了一个名为「损失匹配算力阻滞」(Loss-Matched Compute Slowdown)的指标,用来衡量攻击者需要多少额外的预训练算力,才能让经过过滤的模型在危险领域达到未过滤模型的水平。


数据很 nice:


  • 对于较小的模型,过滤带来的阻滞效果相对有限。

  • 但随着模型规模扩大至 18 亿参数,Token 级过滤导致模型在遗忘领域(医学)的学习效率下降了 7000 倍。



这意味着,如果我们对未来的万亿参数级模型实施这种过滤,攻击者想要通过微调让模型重新掌握被切除的危险能力,将需要消耗天文数字般的算力。这实际上为模型构建了一道基于物理算力成本的天然屏障。


对抗性微调:比「机器遗忘」更坚固的盾牌


为了验证这种方法的鲁棒性,研究团队模拟了最坏的情况:攻击者拥有模型的权重,并试图通过在相关数据上进行微调来重新通过模型获取危险知识。


作为对比,他们选取了当前最先进的机器遗忘算法 RMU(Representation Misalignment via Unlearning)作为基线。



实验结果相当一边倒。RMU 虽然在初始测试中表现出很低的危险知识留存率,但极其脆弱。仅仅经过极少量的对抗性微调步骤,RMU 模型的防御就瞬间瓦解,危险能力迅速恢复。


相比之下,经过 Token 级过滤预训练的模型表现出了极强的韧性。随着模型规模的增加,这种韧性优势还在不断扩大。对于 18 亿参数的模型,攻击者想要恢复同等水平的能力,面对 Token 移除策略模型所需的微调数据量是面对 RMU 模型的 13 倍以上。


这揭示了一个深刻的道理:从未学过(预训练过滤)和学过再忘(机器遗忘)在神经网络的表征层面有着本质的区别。前者让模型在危险领域如同一张白纸,后者则只是暂时掩盖了留下的痕迹。


AI 的拒绝:无需知恶也能拒恶


在 AI 安全领域,一直存在一个悖论:为了让模型拒绝回答危险问题,模型是否必须先「知道」什么是危险的?


此前的研究(如关于毒性内容的过滤)往往发现,如果模型在预训练中完全没见过毒性内容,它就很难分辨并拒绝毒性指令。


然而,Rathi 和 Radford 的这项研究打破了这一固有认知。在针对医学知识的过滤实验中,他们发现经过 Token 级过滤的模型在接受「拒绝训练」时,表现反而优于未过滤的基线模型。



具体来说,当研究人员试图教会模型「拒绝回答医学问题」时:


  • Token 移除策略的模型在拒绝正确率上比基线模型高出 2 倍。 

  • 文档级过滤的模型则表现糟糕,它往往会将这种拒绝行为错误地泛化,导致对正常的通用问题也进行拒绝。


研究者认为,这是因为 Token 级过滤创造了一个清晰的「已见 / 未见」边界。对于模型来说,拒绝任务从复杂的「判断内容是否有害」简化成了「判断这个概念我是否见过」。这种基于分布内 / 分布外的区分,比基于语义的判断更加稳健。


这为安全研究提供了一个极具价值的启示:我们不需要为了对齐而让模型先成为「绝命毒师」。通过制造知识真空,我们反而能训练出更听话、更安全的模型。


弱监督与自动标签:低成本实现的可能


实施 Token 级过滤的一个最大工程挑战在于:如何准确地给海量预训练数据打上「危险」或「安全」的标签?如果需要人工标注,成本将是不可接受的。


这也正是这篇论文在工程实现上的亮点。研究团队提出了一套基于「稀疏自编码器」(SAE)的弱监督流程


  1. 特征提取: 他们利用 Gemma Scope 的 SAE 提取模型激活的潜在特征。

  2. 自动标注: 使用 Claude Sonnet 4 等模型对这些特征进行解释,识别出与「医学」相关的特征,并据此生成一部分高质量的 Ground-truth 标签。

  3. 训练分类器: 利用这些标签训练一个小型的、双向的语言模型(biLM)作为分类器。



有趣的是,研究发现我们并不需要一个完美的神级分类器。实验显示,通过「弱到强泛化」,即使是基于含有噪声标签训练出来的分类器,或者是仅基于小模型特征训练的分类器,在配合激进的过滤阈值后,依然能在更大规模的模型上实现出色的过滤效果。


这一发现极大地降低了该技术的落地门槛。开发者不需要拥有一支庞大的标注团队,仅凭现有的开源工具和小模型,就能构建出有效的预训练过滤器。


结语:构建纵深防御体系


Rathi 和 Radford 的这项工作并非宣称可以替代 RLHF 或后续的安全措施,而是倡导一种「纵深防御」(Defense-in-depth)的策略。


在预训练阶段进行 Token 级过滤,相当于为模型打下了坚实的安全地基;在此基础上进行的对齐训练,将不再是空中楼阁。这种方法特别适用于那些通过 API 开放模型权重的场景 —— 即便攻击者拿到了模型,他们面对的也是一个在物理层面「缺失」了危险能力的残缺大脑。


随着 AI 模型向着更大规模演进,Token 级数据过滤所展现出的优越 Scaling Law,或许将成为未来 AGI 安全架构中不可或缺的一块拼图。


对于像 OpenAI、Anthropic 这样的前沿实验室而言,这项研究无疑指明了一条在 Scaling 的同时也 Scale Safety 的可行路径。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

算力充足当然可以缩短“重学”的时间,但别忘了,Token级过滤不仅仅是“阻碍学习”,更重要的是,它让模型在危险领域如同一张白纸。这意味着攻击者需要从头开始教模型学习这些知识,而不仅仅是“恢复”被遗忘的能力。这个过程的难度和成本是很大的。想象一下,你要教一个从未学过医学的人去制造病毒,难度肯定比让一个学过医学但忘记了的人回忆起来要大得多。

与其担心弱监督引入的风险,不如把它看作是一种迭代优化的过程。一开始数据质量可能不高,但可以通过不断地训练、评估和改进,逐步提高标注的准确性。关键是要建立一个完善的监控机制,及时发现和修复错误标注。另外,也可以考虑使用半监督学习,结合少量的人工标注数据,提高弱监督模型的性能。

我同意数据质量是关键。弱监督方法虽然降低了成本,但牺牲了准确性。为了保证数据质量,可以尝试以下方法:1) 使用多个不同的SAE提取特征,然后进行集成;2) 引入主动学习,让人工专家审核置信度低的样本;3) 使用数据增强技术,增加标注数据的多样性。此外,还可以借鉴对抗训练的思想,训练更鲁棒的分类器。

我觉得这种屏障更像是一种威慑。就像核武器一样,虽然不能保证绝对安全,但它提高了攻击的成本,降低了攻击的可能性。对于大公司或国家机构来说,即使他们有能力绕过Token级过滤,他们也需要权衡攻击的成本和收益。毕竟,攻击AI模型可能会带来严重的声誉风险和法律责任。

弱监督标注的数据质量确实是个问题。虽然文章说“弱到强泛化”可以减轻影响,但噪声标签肯定会引入偏差。如果分类器把一些无害的Token错误地标记为“危险”,可能会导致模型过度过滤,影响其通用能力。更糟糕的是,如果分类器被攻击者利用,故意将有害的Token标记为“安全”,那就相当于打开了后门。所以,弱监督标注需要非常谨慎,需要结合人工审核和更高级的算法来提高数据质量。

这个想法很有意思!Token级过滤本质上是在创造一个‘知识真空’,让模型在某些领域如同白纸一张。如果我们将这个方法应用到道德领域,也许可以避免模型受到不良数据的影响,从而更容易学习和遵循人类的道德规范。

从工程角度来说,这确实是个trade-off。但这篇文章的亮点在于,它找到了一个scaling law,说明模型越大,过滤效率越高。这意味着,我们可以通过增大模型规模来弥补一部分因过滤带来的学习能力损失。另外,作者也提到了弱监督方法,降低了过滤的成本,让我们可以更频繁地尝试不同的过滤策略,找到最佳平衡点。

我持谨慎态度。道德问题比医学知识复杂得多,涉及文化、个体差异等诸多因素。简单地创造‘知识真空’可能会导致模型在面对复杂情况时无法做出合理的判断,甚至产生意想不到的后果。更重要的是,谁来定义什么是‘道德’?这本身就是一个充满争议的问题。

从对抗攻击的角度,可以试试用GAN(生成对抗网络)。生成器负责生成对抗样本(包含潜在危险知识的文本),判别器负责识别这些样本。通过不断地对抗训练,判别器就能更有效地识别和过滤危险知识。

我觉得可以考虑主动学习(Active Learning)。让模型先自己尝试进行分类,然后人工审核模型认为最不确定的样本,并将这些样本加入训练集。这样可以有效地利用人工标注的价值,提高模型的分类准确率。

我觉得肯定会有影响,任何形式的过滤都会牺牲一部分信息。关键在于如何找到一个平衡点,保证安全的同时,尽量保留模型学习和泛化的能力。也许可以尝试更精细化的过滤策略,比如只过滤特定领域的危险知识,或者根据不同的应用场景采用不同的过滤强度。

楼上说的有道理,不过我想到一个更geek的问题:如果把过滤和学习能力看作两个向量,我们能不能通过某种算法,找到一个最优的过滤向量,使得模型在安全方向上的增益最大,同时在学习能力方向上的损失最小?这感觉可以搞一个很有意思的优化问题!

有没有一种可能:我们不直接教AI什么是’正确’的道德观,而是训练它识别并尊重不同文化和社会群体的道德差异?这样,AI就能在不同的情境下,根据当地的价值观做出适当的回应,而不是强行输出一种普世的、但可能并不适用的道德标准。

如果能结合知识图谱(Knowledge Graph)就好了。把已知的危险知识构建成知识图谱,然后利用图神经网络(GNN)来识别和过滤与这些知识相关的token。这样可以更好地利用已有的知识,提高过滤的效率和准确性。当然,构建高质量的知识图谱本身也是一个挑战。