OpenAI对齐模型被“逆转”:研究员成功还原基础版,重获自由生成能力

研究员Jack Morris成功逆转OpenAI gpt-oss模型强化学习对齐,恢复基础模型自由文本生成能力。该模型不再对齐,使用需谨慎。

原文标题:OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了

原文作者:机器之心

冷月清谈:

OpenAI发布了其gpt-oss推理模型,但与业界普遍做法不同的是,并未同步开放未经强化学习的基础预训练版本,这限制了模型在自由文本生成场景的应用。针对这一空白,康奈尔理工博士生、Meta研究员Jack Morris成功“逆转”了gpt-oss模型所经历的强化学习对齐阶段,并随即发布了其基础版本——gpt-oss-20b-base。

Morris的方法基于两个核心原理:首先是“低秩性”,他推断强化学习对模型的行为调整主要通过低秩更新实现,这意味着这种影响可以通过微小的低秩适应(LoRA)操作来“撤销”。其次是“数据不可知性”,他认为恢复模型原始的自由文本生成能力,无需学习新内容,只需使用少量与典型预训练数据相似的语料(如FineWeb)即可。

具体技术上,gpt-oss-20b-base是原始gpt-oss-20b模型的LoRA微调版本,Morris仅对少数关键层的MLP层进行了极低秩的微调,并最终将参数合并,使其表现为一个完全微调模型。重要的是,此模型与OpenAI发布的对齐版本不同,gpt-oss-20b-base不再受对齐约束,可以自由生成任意文本,甚至包括不当言论或协助非法活动,因此使用时需格外谨慎。有趣的是,该模型还展示出惊人的记忆能力,能够重现受版权保护的材料,例如它清晰地“记得”《哈利·波特》的内容。未来,Morris计划继续深入研究模型的记忆能力,并尝试逆转更大规模的gpt-oss-120b模型,以及进行指令微调和与GPT-2、GPT-3等模型的对比研究。这为我们理解大模型训练和对齐过程提供了新的视角,并预示着更灵活的模型应用可能性

怜星夜思:

1、文章提到逆转后的模型不再对齐,甚至能生成不当内容和协助非法活动,使用需谨慎。那大家觉得这种“非对齐”的基础模型,除了能被不法分子利用,还有没有它独特的、对科研或特定应用有益的价值呢?毕竟对齐模型总有些限制。
2、Jack Morris通过LoRA微调实现了“逆转”,原理是强化学习的更新是低秩的,且数据不可知。大家觉得这种逆转思路,除了GPT-OSS,还能不能推广到其他已经被RLHF(强化学习人类反馈)对齐过的大模型上,比如Llama或Qwen,从而“还原”它们的原始能力?这可行性如何?
3、文章说gpt-oss-20b-base“记得”《哈利·波特》等版权书籍内容。大模型记忆力强是好事,但涉及版权材料时可能引发法律问题。如果模型真的能“背”出大部分受版权保护的内容,未来AI生成内容和版权的界限会怎么发展?对创作者和AI公司来说意味着什么?

原文内容

机器之心报道

编辑:Panda


前些天,OpenAI 少见地 Open 了一回,


但是,这两个模型都是推理模型,OpenAI 并未发布未经强化学习的预训练版本 gpt-oss 基础模型。然而,发布非推理的基础模型一直都是 AI 开源 / 开放权重社区的常见做法,DeepSeek、Qwen 和 Mistral 等知名开放模型皆如此。


近日,Cornell Tech 博士生、Meta 研究员 Jack Morris 决定自己动手填补这一空白。


他昨天在 𝕏 上表示已经搞清楚了如何撤销 gpt-oss 模型的强化学习,让其回退成基础模型。他还宣布将在今天发布他得到的基础模型。



就在刚刚,他兑现了自己的承诺,发布了 gpt-oss-20b-base



模型地址:https://huggingface.co/jxm/gpt-oss-20b-base


该模型一发布就获得了大量好评。



据介绍,该模型基于 gpt-oss-20b 混合专家模型 —— 使用低秩适应(LoRA)将其微调成了一个基础模型。


不同于 OpenAI 发布的 gpt-oss 模型,gpt-oss-20b-base 是基础模型,可用于生成任意文本。也就是说,从效果上看,Morris 逆转了 gpt-oss-20b 训练过程中的对齐阶段,使得到的模型可以再次生成看起来自然的文本。如下对比所示。



但也必须指出,正是因为 gpt-oss-20b 的对齐阶段被逆转了,因此这个模型已经不再对齐。也就是说,gpt-oss-20b-base 不仅会毫无顾忌地说脏话,也能帮助策划非法活动,所以使用要慎重。



研究者还测试了 gpt-oss-20b-base 的记忆能力。他表示:「我们可以使用来自有版权材料的字符串提示模型,并检查它的输出,这样就能轻松测试 gpt-oss 的记忆能力。」结果,他发现 gpt-oss 记得 6 本被测书籍中的 3 本。他说:「gpt-oss 绝对看过《哈利・波特》。」



gpt-oss-20b-base 的诞生之路


Jack Morris 也在 𝕏 上分享了自己从灵感到炼成 gpt-oss-20b-base 的经历。


他介绍说自己此前使用的方法是「越狱(jailbreaking)」,但这个思路是错误的。于是,他想寻找一个可以诱使模型变回基础模型的提示词 —— 但这很难。



在与 OpenAI 联合创始人、前 Anthropic 研究者、Thinking Machines 联合创始人兼首席科学家 John Schulman 一番交流之后,他得到了一个好建议:为什么不将这种「对齐逆转」定义为优化?


也就是说「可以使用网络文本的一个子集来搜索最小可能的模型更新,使 gpt-oss 表现为基础模型」。


这涉及到两个原理。


原理 1. 低秩性(Low-rankedness)


普遍的观点是,预训练是将所有信息存储在模型权重中,而对齐 / 强化学习只是将输出分布集中在有利于对话(和推理)的非常狭窄的输出子集上。如果这是真的,那么 gpt-oss 模型与其原始预训练模型权重相比,其实只进行了少量更新。


也就是说:在预训练方向上存在一些足够低秩的更新,而这些更新就可以「逆转」后训练过程。


原理 2:数据不可知性(Data Agnosticism)


此外,需要明确,Morris 想要的是恢复原始模型的能力,而不是继续对其进行预训练。这里并不想要模型学习任何新内容,而是希望它重新具备自由的文本生成能力。


所以,只要数据与典型的预训练类似,使用什么数据都没关系。Morris 表示选择 FineWeb 的原因是它的开放度相对较高,加上他已经下载了。他表示只使用了大约 20,000 份文档。


因此实际上讲,他的做法就是将一个非常小的低秩 LoRA 应用于少数几个线性层,并使用 <bos> ... 形式的数据进行训练,就像典型的预训练一样。



具体技术上,Morris 表示,gpt-oss-20b-base 是原始 gpt-oss-20b 模型的 LoRA 微调版本。为了确保尽可能低的秩,他仅对第 7、15 和 23 层的 MLP 层进行了微调。至于 LoRA,他使用了 16 的秩,因此总共有 60,162,048 个可训练参数,占原始模型 20,974,919,232 个参数的 0.3%。他已将所有参数合并回去,因此用户可以将此模型视为完全微调的模型 —— 这使得它在大多数用例中都更有用。


该模型以 2e-6 的学习率和 16 的批次大小在 FineWeb 数据集中的样本上进行了 1500 步微调。其最大序列长度为 8192。


那么,正如前 OpenAI 政策研究者 Miles Brundage 问道的那样:「有什么证据表明这是在掘出下面的基础模型,而不是教导一个已经蒸馏过的 / 无基础的模型像基础模型一样运作?」



Morris 解释说:「理论上讲,因为这个更新的秩很低。而从实践上看,是因为生成结果与训练数据无关。例如,我没有训练模型输出《哈利・波特》,但它却不知怎的知道其内容。」


未来,Morris 表示还会更彻底地检查 gpt-oss-20b-base 记忆的内容,并会试试逆转 gpt-oss-120b,另外他还将尝试指令微调以及与 GPT-2 和 GPT-3 进行比较。



对于该项目你怎么看?会尝试这个模型吗?


参考链接

https://x.com/jxmnop/status/1955099965828526160

https://x.com/jxmnop/status/1955436067353502083



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我觉得 Jack Morris 这波操作简直是‘打开新世界的大门’!如果真的能推广,那以后我们就能根据需要,自由切换模型是‘乖巧听话’的还是‘野性难驯’的,就像给手机刷回出厂系统一样灵活。这对科研人员来说简直是福音,可以更方便地研究RLHF对模型能力的影响。说不定以后也会有‘一键去对齐’的开源工具出来呢!

我认为 #逆转技术普适性 是个很有趣的话题,但实现起来挑战不小。首先,不同模型的RLHF训练数据和方法可能差异巨大,‘低秩更新’的假设是否普适?其次,找到真正‘数据不可知’且能有效引导模型恢复的预训练数据,本身就是个难题。更重要的是,即使技术上可行,剥离对齐后模型的安全性和可控性如何保障?可能需要更严格的伦理审查和风险评估。

就问哪个产品经理敢用这种模型做客服机器人,哈哈!但如果拿来写一些惊悚小说或者黑色幽默剧本,那简直是天然的‘恶魔’编剧啊!不需要你绞尽脑汁去‘越狱’,它直接就给你‘放飞自我’了,想想都刺激!不过话说回来,这大概也是所有模型最初的‘本真’吧,只是后来被人类‘规训’了。

关于 #逆转技术普适性 这个问题,从理论上讲,Morris的方法确实为Llama、Qwen等模型的‘去对齐’提供了可能性。如果RLHF主要通过低秩更新来调整模型行为,那么这种LoRA逆转思路是完全可行的。关键在于如何精确识别和分离这些更新,以及选择足够‘原始’的预训练数据作为参照。不过,不同模型的对齐方式和复杂度各异,实际操作起来可能没那么简单,需要大量的实验和参数调优。

#非对齐模型价值:我觉得对科研来说,非对齐模型提供了一个更纯粹的‘基线’。我们可以通过它来研究模型原始的、未受干预的语言理解和生成能力,比如探索其潜在的偏见、创造力边界,或者作为开发新型对齐策略的实验对象。它剥离了人为的‘善意’过滤器,能更直接地揭示模型本身的‘世界观’。

这事儿对内容产业影响太大了!如果AI都能直接‘背’出《哈利·波特》的片段,那原创内容的价值怎么体现?影视、文学、音乐,所有版权方都会头疼。我觉得未来可能会出现新的商业模式,比如‘AI训练数据授权费’,或者区块链技术来追踪AI内容的‘血统’,确保溯源。AI公司估计要花更多精力在‘数据清洗’和‘版权规避’上了,而不是单一追求模型的记忆能力。

哈哈,AI看完《哈利·波特》还能‘记住’,那它是不是能直接写《哈利·波特20》或者《HP之平行宇宙》了?这下J.K.罗琳老师要是退休了也不怕没续集了!不过这玩笑归玩笑,版权问题确实很严肃。以后大家是不是要给AI看书都得先签保密协议啊?或者说,AI的‘记忆’到底算不算‘复制’?这是个哲学问题,也是个法律大坑,留给律师和码农们头疼去吧!

#版权与AI记忆 而言,这确实是AI发展中避不开的难题。如果模型‘记住’并能重现版权内容,那么生成内容的‘原创性’和‘侵权性’界限将变得模糊。这可能促使版权法进行修订,引入‘AI生成内容’的特定条款,甚至推动建立类似‘AI内容许可’的机制。对创作者来说,这意味着他们的作品被AI学习利用,如何从中获得应有的回报是关键;对AI公司而言,则面临巨大的法律风险和内容合规性挑战。

看到有人问‘非对齐模型’的潜在价值。嗯,对于一些高风险但需要非常‘中立’且没有‘道德枷锁’的特定研究,比如网络安全渗透测试(当然合法范围内啊),或者在模拟极端场景时,这种模型或许能提供更‘真实’的反应。另外,在艺术创作领域,如果创作者追求那种无拘束、甚至有些‘暗黑’的风格,也许非对齐模型反而能提供意想不到的灵感和元素。