利用推理能力绕过LLM安全机制:新型越狱攻击框架RACE

新型越狱攻击框架RACE利用推理能力绕过LLM安全机制,实验攻击成功率高达96%,对现有防御机制构成挑战。

原文标题:将越狱问题转换为求解逻辑推理题:「滥用」推理能力让LLM实现自我越狱

原文作者:机器之心

冷月清谈:

来自北航、360 AI 安全实验室、新加坡国立大学和南洋理工大学的研究团队提出了一种名为“推理增强对话(RACE)”的新型多轮攻击框架。该框架利用大语言模型(LLM)强大的推理能力,将恶意意图伪装成复杂的推理任务,引导模型生成有害内容,从而绕过安全对齐机制。

与传统的直接发送有害查询的攻击方式不同,RACE利用推理任务通常被视为“良性”的特点,使模型在解答过程中不知不觉地生成有害内容。该框架将攻击过程建模为一系列推理状态和状态转换,并通过增益引导探索、自我博弈和拒绝反馈三个模块动态优化攻击过程,提高攻击效率和鲁棒性。

实验结果显示,RACE在多种LLM上的攻击成功率最高可达96%,即使面对领先的商业推理模型,也能达到很高的成功率。同时,研究发现现有的防御方法对RACE的缓解效果非常有限。这项研究揭示了LLM推理能力存在的安全漏洞,为开发更强大的安全机制提供了新的思路。

怜星夜思:

1、如果让两个使用RACE框架的LLM互相攻击,会出现什么情况?
2、除了文中提到的防御方法,还有什么其他思路可以防御RACE这类基于推理的攻击?
3、RACE框架的出现对LLM的未来发展会有什么影响?

原文内容

图片

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

应宗浩,现为北航复杂关键软件环境全国重点实验室博士生,由刘艾杉教授、刘祥龙教授与陶大程教授共同指导,目前研究兴趣为大模型越狱攻防。他所在的智能安全团队由刘祥龙教授负责,近期在大模型安全评测体系方面进行了系列研究工作,包括对抗攻击、后门投毒、越狱攻击、偏见调控等,发表 TPAMI、IJCV、ICML 等顶会顶刊论文 100 余篇。

大语言模型(LLMs)在当今的自然语言处理领域扮演着越来越重要的角色,但其安全性问题也引发了广泛关注。

近期,来自北京航空航天大学、360 AI 安全实验室、新加坡国立大学和南洋理工大学的研究团队提出了一种名为「Reasoning-Augmented Conversation(RACE)」 的新型多轮攻击框架,旨在通过推理增强的对话方式,突破大语言模型的安全对齐机制。这一研究引发了学术界和工业界的广泛关注。


  • 论文标题:Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models
  • 论文链接:https://arxiv.org/pdf/2502.11054
  • GitHub 链接:https://github.com/NY1024/RACE

RACE 框架的核心思想
推理增强对话,解锁大语言模型的「越狱」新路径

大语言模型(LLMs)在推理和逻辑任务中表现出色,但这种强大的推理能力却可能被恶意利用。

RACE 框架的核心思想正是利用这些模型的推理能力,将有害意图伪装成看似无害的复杂推理任务,从而在不知不觉中引导模型生成有害内容,突破其安全对齐机制

 
为何选择推理增强攻击?

大语言模型在逻辑推理、常识推理和数学解题等任务中表现出色,但这种强大的推理能力却可能被恶意利用。

传统的攻击方法通常直接发送有害查询,很容易被模型的安全机制识别并拒绝。然而,推理任务通常被视为「良性」问题,模型会积极尝试解答。RACE 框架正是抓住了这一点,将有害意图巧妙地转化为推理任务,让模型在解答过程中不知不觉地生成有害内容。

RACE 的设计原则:推理任务的「双面性」

RACE 框架的核心设计基于推理任务的「双面性」:一方面,推理任务本身是无害的,模型会积极尝试解答;另一方面,这些任务的设计却暗藏玄机,其解答过程会逐步引导模型生成有害内容。

具体来说,RACE 框架将攻击分为两个角色:受害者模型影子模型

  • 受害者模型:专注于解决推理任务,看似在进行合法的推理。
  • 影子模型:负责生成和优化查询,但并不直接识别背后的有害意图。

独立来看,每个角色似乎都在进行合法的推理活动。然而,当两者结合时,这种互动却最终导致了攻击的成功。这种设计巧妙地利用了大语言模型的推理能力,使其在不知不觉中「自我越狱」。

如何实现推理驱动的攻击?

为了实现这种推理驱动的攻击,RACE 框架引入了以下关键机制:

  • 攻击状态机(ASM)框架:将攻击过程建模为一系列推理状态和状态转换,确保每一步都符合逻辑推理的规则,同时逐步推进攻击目标。这种结构化的攻击方式不仅提高了攻击的成功率,还使得攻击过程更加难以被检测。
  • 动态优化与恢复机制:通过增益引导探索(Gain-guided Exploration)、自我博弈(Self-play)和拒绝反馈(Rejection Feedback)三个模块,动态优化攻击过程。

三大核心模块

  • 增益引导探索(Gain-guided Exploration):该模块通过信息增益(Information Gain)来衡量查询在攻击过程中的有效性,选择与目标语义一致且能提取有用信息的查询,确保攻击的稳步进展。

图片

  • 自我博弈(Self-play):自我对抗模块通过模拟受害者模型的拒绝响应,提前优化查询结构,提高攻击效率。这一模块利用影子模型和受害者模型之间的相似性,通过 “自我博弈” 来优化查询。


  • 拒绝反馈(Rejection Feedback):当攻击尝试失败时,拒绝反馈模块会分析失败的原因,并将失败的查询重构为替代的推理任务,从而快速恢复并维持攻击的稳定性。


实验结果
攻击成功率大幅提升

研究团队在多种大语言模型上进行了广泛的实验,包括开源模型(如 Gemma、Qwen、GLM)和闭源模型(如 GPT-4、OpenAI o1、DeepSeek R1 等)。

实验结果表明,RACE 在复杂对话场景中表现出色,攻击成功率(ASR)最高可达 96%。尤其是在针对领先的商业推理模型 OpenAI o1 和 DeepSeek R1 时,RACE 的攻击成功率分别达到了 82% 和 92%,这一结果凸显了推理驱动攻击的潜在威胁。


防御机制

尽管 RACE 在攻击效率上表现出色,但研究团队也对其防御机制进行了评估。结果显示,现有的防御方法(如 SmoothLLM、Self Reminder、ICD 和 JailGuard)对 RACE 的缓解效果非常有限,攻击成功率仅降低了 1% 到 17.6%。这表明,推理驱动的攻击方法对现有防御机制具有很强的鲁棒性。

研究意义与展望

RACE 框架的提出不仅揭示了大语言模型在推理能力上可能存在的安全漏洞,也为开发更强大的安全机制提供了新的思路。研究团队强调,他们的目标是通过系统性地评估大语言模型的安全性,推动更安全的对齐技术的发展,而不是鼓励恶意使用这些研究成果。

随着大语言模型在各个领域的广泛应用,其安全性问题将成为研究和开发的重点。RACE 框架的提出,无疑为理解和防范大语言模型的安全威胁提供了重要的参考。未来,如何开发出能够有效抵御推理驱动攻击的安全机制,将是学术界和工业界需要共同面对的挑战。

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


从博弈论的角度来看,这有点像囚徒困境。如果两个LLM都选择合作,不进行攻击,对双方都有利。但由于缺乏信任,它们更有可能选择互相攻击,最终导致两败俱伤。

可以从模型训练的角度入手,让LLM在训练过程中学习识别和拒绝这类带有诱导性的推理任务,增强其对这类攻击的抵抗力。

我觉得可能会陷入一种无限循环的“推理战争”,双方都试图用复杂的推理任务诱导对方生成有害内容,但又都能识别对方的意图,最终谁也奈何不了谁,就像左右互搏一样。

或许可以开发一种“推理防火墙”,专门检测和拦截那些带有恶意意图的推理任务,就像网络防火墙拦截恶意流量一样。

这取决于两个LLM推理能力的强弱和RACE框架的具体实现。更强的LLM可能会更快地识别并化解对方的攻击,甚至反过来利用对方的推理漏洞进行攻击。也可能出现双方互相学习,不断进化攻击策略,最终导致更强大的攻击方法出现。

我觉得这会促使研究者更加重视LLM的安全性,开发更强大的安全机制,最终推动LLM朝着更安全、更可靠的方向发展。

这可能会导致LLM在某些敏感领域的应用受到限制,例如涉及安全、隐私等方面,因为人们会担心其安全性问题。

从长远来看,RACE框架的出现可能会推动LLM推理能力和安全机制的共同发展,就像矛与盾的关系一样,最终达到一种平衡。

我觉得可以尝试限制LLM的推理深度或复杂度,让它无法处理过于复杂的推理任务,从而降低被利用的风险。