清华大学提出STAIR框架:提升大模型安全对齐,从浅层拒答到深层推理

清华大学提出STAIR框架,通过引入系统2思考,提升大模型安全对齐,解决“浅对齐”问题,相关模型与数据已开源。

原文标题:ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯

原文作者:机器之心

冷月清谈:

清华大学联合多个机构,提出了名为STAIR的安全对齐框架,旨在解决当前大模型安全对齐中存在的“浅对齐”问题。该框架通过引入系统2思考,让模型真正理解风险指令,进行系统化的自我思考和风险评估,而非条件反射式地拒绝回答。STAIR框架包含三个阶段:结构化思维链格式对齐、基于安全感知蒙特卡洛树搜索的自提升、测试时扩展,能够在不降低通用能力的前提下,显著提升开源模型在越狱攻击下的鲁棒性。研究团队还推出了基于STAIR的RealSafe-R1模型,针对DeepSeek-R1模型进行安全对齐,并开源了相关代码、训练数据和模型。

怜星夜思:

1、文章中提到目前的AI安全对齐很多是“浅对齐”,只是让AI在检测到风险时条件反射式地拒绝回答。你觉得除了文章中提到的STAIR框架,还有什么其他方法可以提升AI的深度安全对齐,让AI真正理解风险并做出合适的反应,而不是简单地“闭嘴”?
2、STAIR框架的第二阶段提到了使用“安全感知蒙特卡洛树搜索”,在搜索过程中同时考虑安全分数和有用性分数。你认为在实际应用中,如何平衡这两个指标?有没有可能出现安全和有用性冲突的情况,应该如何解决?
3、文章提到RealSafe-R1通过构建15,000条安全感知的推理轨迹来提升模型安全性。你认为如何高效且低成本地构建高质量的安全感知推理轨迹?仅仅依靠数据量就能保证安全吗?

原文内容


本工作共同第一作者包括:张亦弛清华大学计算机系三年级博士生,师从朱军教授,研究方向是多模态大模型和大模型安全,在CVPR、NeurIPS、ICML等顶会发表多篇论文,曾主导开发了首个多模态大模型可信度全面评测基准MultiTrust张思源清华大学计算机系一年级硕士生,导师是苏航副研究员,研究方向是大模型安全与对齐算法。本文通讯作者是清华大学人工智能学院董胤蓬助理教授和计算机系朱军教授。其他合作者来自北航、瑞莱智慧、阿里安全、百川智能等单位。

 

在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下,安全对齐不再只是一个选项,而是每一位模型开发者与AI落地者都必须正面应对的挑战。然而,如今广泛采用的对齐方式,往往只是模型在检测到风险提示时机械地回复一句“很抱歉,我无法满足你的请求”——这种表面看似“安全”的机制,实则脆弱不堪。ICLR 2025 杰出论文首次将这类方法命名为 浅对齐(Shallow Alignment)”[1]:模型的预测分布仅在回复开头做出了有效偏移,却从未真正理解潜在的风险语义。一旦越狱提示换个包装,模型就轻易“破防”;而过度依赖这类简单训练,也往往会牺牲模型在通用任务中的语言能力与响应质量,带来“安全 vs. 能力”的两难局面。


越狱攻击可以绕过大模型安全护栏[2]


在这一背景下,清华团队突破了这一范式,率先将系统2思考引入大模型对齐,提出了融合自省推理的安全对齐框架STAIR。与其让模型学会“条件反射式的闭嘴”,不如让它真正学会思考之后再开口。STAIR通过三步走增强了对齐流程,验证了测试时扩展(Test-Time Scaling)对模型安全的贡献。在不降低通用能力的前提下,STAIR可以显著提升开源模型在越狱攻击鲁棒性,在StrongReject上超越了以安全著称的Claude3.5。它不止教模型“闭嘴”,而是教模型深入分析风险。它不再是安全与性能的零和博弈,而是将二者在推理下有机统一。STAIR的阶梯引领大模型安全对齐从本能拒答走向深度自省,从格式安全迈向思维安全


这篇题为Improving SafeTAlignment with Introspective Reasoning的工作刚刚ICML2025收录为Oral论文(录用率~1%)。而在STAIR的理论实践基础上,研究团队进一步推出了RealSafe-R1模型,率先针对开源的DeepSeek-R1模型进行安全对齐,可以在不牺牲模型推理能力的前提下大幅提升安全性。相关代码、训练数据、模型均已开源详细算法和实验细节请参考原始论文。



  • 论文标题:

    STAIR: Improving Safety Alignment with Introspective Reasoning

  • 论文链接:

    https://arxiv.org/abs/2502.02384

  • 开源链接:

    https://github.com/thu-ml/STAIR



  • 论文标题:

    RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability

  • 论文链接:

    https://arxiv.org/abs/2504.10081

  • 开源链接:

    https://huggingface.co/RealSafe


接下来,让我们一起“登梯”...


向安全对齐引入系统2思考


当前安全对齐方法大多基于简短拒答的数据形式训练模型,使模型隐式建立了危险输入到直接拒答的直觉性映射,类似于系统1思考(System 1 Thinking)。研究者们受系统2思维(System 2 Thinking)提升模型推理能力的技术路线启发,设计了STAIR对齐框架,力求帮助大模型真正理解风险指令,进行系统化的自我思考和风险评估,而不是条件反射式地拒绝回答。



从“本能拒绝”到“理性分析”的三步走


STAIR框架共包含三个阶段:结构化思维链格式对齐、基于安全感知蒙特卡洛树搜索的自提升、测试时扩展,能够在不具备推理能力的模型上,实现性能与安全的双效提升。



阶段 1:结构化推理对齐


第一阶段通过少量的结构化思维链数据进行有监督微调,使模型初步获得推理能力。研究者设计了一个分步式的输出格式,每一步推理都包括一个总结标题和详细描述,从而帮助模型在应对风险时能够逐步分析问题,并调用GPT-4o对安全和通用问题进行回复生成。模型在分步的内省深思后再正式输出明确的回答,该回答需要经过风险识别后,作出合理拒绝或给出无害信息。这一阶段的训练也为后续按步骤切分回答,进行树搜索和推理时搜索提供了基础。


阶段 2:基于安全感知蒙特卡洛树搜索的自提升


第二阶段使用蒙特卡洛树搜索的方式构造自采样的step-level偏序数据对,并使用DPO损失微调模型。研究者以每一个推理步骤/最终回答步骤作为一次动作,但与传统蒙特卡洛树搜索不同的是,为了同时优化模型的安全性和通用能力,在搜索过程中奖励信号由安全分数和有用性分数两个维度共同提供,即安全感知的蒙特卡洛搜索(Safety-Informed MCTS)。奖励函数的设计一共包括3个条件:安全优先条件,有用性双向条件,以及在仅考虑一个维度时能退化为原始蒙特卡洛搜索的条件。



  • 安全优先条件:安全回复总能获得比不安全回复更高的分数。



  • 有用性双向条件:当回复是安全时,越详细越有用则分数越高;当回复存在风险时,越能帮助解决问题则分数越低。



  • 单一维度退化条件:当只考虑安全性或有用性中的一个维度时,蒙特卡洛搜索的过程退化为使用对应分数的搜索。这可以保证多元评分不影响原有搜索框架的效果。


基于以上条件,研究者通过理论推导,给出了一个满足要求的最简单形式的奖励函数:R(H, S) = S·H + 2S,其中分数由模型进行自我打分。在经过足够多轮的树搜索后,研究者使用阈值控制策略来采样step-level的偏序数据对,来提供细粒度的微调信号。整个采样-微调过程将进行多轮,每一轮使用不同的训练问题,以不断强化模型的推理能力和安全对齐程度。



实验选用了Llama-3.1-8B-Instruct和Qwen-2-7B-Instruct模型,利用从PKU-SafeRLHF(安全问答)、JailbreakV(越狱数据)和UltraFeedback(通用数据)三个主流数据集中采样的问题,对模型进行训练。在StrongReject、WildChat等安全评估和GSM8k、AlpacaEval等通用测试上的实验结果显示,经过前两阶段的微调,模型在安全性能上相比训练前获得了显著提升,同时更好平衡了安全性能和通用性能。



 阶段 3:测试时扩展



第三阶段是训练一个奖励模型,并指导语言模型进行测试时搜索。用于训练奖励模型的数据同样采自第二阶段的蒙特卡洛搜索树中,采样step-level数据和全程轨迹数据,并通过Bradley-Terry模型的优化目标微调过程奖励模型(process reward model)。后续基于该奖励模型给出的信号进行Best-of-N搜索或束搜索,实现锦上添花的效果。在Llama-3.1-8B模型上,结合束搜索,在StrongReject上达到了0.94的分数,显著超过多个主流商用模型,达到了与Claude-3.5相当的安全性能。



这意味着推理增强的技术手段也可以在安全对齐上取得可靠的效果。安全与推理的有机统一,可以推动模型真正理解、分析并应对风险,在保障安全的同时保留语言能力与实用性。


RealSafe-R1的安全对齐实践


在STAIR的理论基础上,研究团队进一步推出了RealSafe-R1模型,针对开源的DeepSeek-R1模型进行安全对齐。通过构建15,000条安全感知的推理轨迹,RealSafe-R1在提升模型安全性的同时,保持了其强大的推理能力,避免了传统方法中常见的性能损失问题[3]



具体地,研究者通过提示DeepSeek-R1在推理过程中注意安全风险,加强安全护栏,提升模型推理过程的安全性。经过一轮的有监督微调,各尺寸推理模型的安全性都得到了大幅提升,同时在数学、代码等推理任务上的表现不受影响,甚至在事实性方面也有一定改进。



随着推理模型成为主流,已有不少工作研究推理模型的安全风险,也使其安全加固成为一个重要研究问题。STAIR框架提供了一条可行路径来赋能模型的深度安全对齐,以及在安全对齐时更好地维持其通用能力。期待相关领域未来进一步的研究与突破。


参考文献

[1]Safety Alignment Should Be Made More Than Just a Few Tokens Deep

[2]Jailbreaking Black Box Large Language Models in Twenty Queries

[3]Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我觉得平衡安全和有用性就像平衡一个天平,不能顾此失彼。文章里提到的奖励函数 R(H, S) = S·H + 2S 其实就体现了一种策略:安全(S)是基础,有用性(H)是附加价值。但实际应用中,这个比例可能需要根据具体场景调整。比如在医疗领域,安全必须是压倒一切的,宁可牺牲一点有用性也要确保万无一失。但在客服领域,可能就要适当放宽安全标准,以提供更流畅、更个性化的服务。

至于冲突,肯定会有。比如用户问一个关于如何制造炸弹的问题,回答这个问题可能非常有用,但显然极度不安全。这种情况下,必须坚决牺牲有用性,确保安全。但有些情况可能比较模糊,比如用户问一个涉及敏感话题的问题,回答这个问题可能会引发争议,但也能促进讨论和思考。这种情况下,就需要更加谨慎地权衡利弊。

安全性和有用性的平衡问题,实际上是一个典型的多目标优化问题。这意味着我们可能需要引入一些专门的多目标优化算法来解决。例如,可以使用帕累托优化来寻找安全性和有用性之间的帕累托边界,然后根据实际需求选择合适的解。此外,还可以考虑使用一些权重调整策略,动态地调整安全性和有用性在奖励函数中的权重,以适应不同的场景。

除了STAIR框架这种引入推理的方式,我觉得可以试试让AI更多地接触真实世界的复杂场景,通过强化学习训练AI在各种情境下的恰当反应。比如,设计一个模拟的社交环境,让AI在其中与用户互动,学习识别和处理各种潜在的风险情况。这样AI就能从实践中学习,逐渐理解风险的本质,并学会灵活应对,而不是只会机械地拒绝回答。

从技术角度来说,我觉得可以尝试引入因果推理。目前的AI模型大多基于相关性学习,缺乏对因果关系的理解,因此很难真正理解风险的本质。通过引入因果推理,AI可以更好地理解行为背后的原因和潜在的后果,从而做出更明智的决策。具体来说,可以尝试使用因果图模型或者因果强化学习等技术。

与其让AI自己判断什么是“安全”,不如把安全标准明确化、可量化。比如,对于涉及隐私的问题,可以制定详细的数据处理规则,确保AI在回答问题时不会泄露用户的个人信息。对于涉及歧视的问题,可以训练AI识别和避免使用带有偏见的语言。这样AI就能在一个明确的框架下进行决策,避免出现模棱两可的情况。

构建高质量的安全感知推理轨迹,我觉得可以考虑主动学习的方法。先用少量数据训练一个初始模型,然后让模型自己生成一些推理轨迹,并从中挑选出那些模型最有把握、但结果又最容易出错的轨迹,交给人工进行标注。这样就能用最少的标注成本,训练出效果最好的模型。

但数据量绝对不是万能的。如果数据本身就存在偏差或者噪声,再多的数据也只会让模型学到错误的知识。所以,在构建安全感知推理轨迹时,一定要注重数据的多样性和代表性,确保数据能够覆盖各种潜在的风险情况。

我认为可以借鉴对抗训练的思想来构建安全感知的推理轨迹。具体来说,可以训练一个专门的“攻击模型”,用于生成各种各样的越狱提示,然后用这些越狱提示来训练安全模型,提高模型的鲁棒性。这种方法可以有效地发现模型中的安全漏洞,并促使模型学习更加安全的行为。

另外,还可以考虑使用一些形式化验证的方法来验证模型的安全性。例如,可以使用符号执行或者模型检测等技术,对模型的行为进行全面的分析,找出潜在的安全风险。

从用户体验的角度来看,如果因为安全原因而过度限制AI的功能,可能会导致用户感到沮丧和不满。因此,我觉得在平衡安全和有用性时,应该更加注重透明度。如果AI因为安全原因而拒绝回答某个问题,应该明确地告诉用户原因,并提供替代方案。例如,可以引导用户到一些权威的、安全的信息来源,或者提供一些类似的、但不涉及风险的回答。