突破大模型安全瓶颈:TRIDENT如何通过三维多样化红队数据构筑LLM防线

TRIDENT引入“词汇-意图-越狱策略”三维多样化红队数据,自动化生成高质量安全数据,显著提升LLM安全,同时保持有用性。

原文标题:ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法

原文作者:机器之心

冷月清谈:

大语言模型(LLM)的广泛应用面临一个关键挑战:潜在的安全风险。目前主流的安全对齐数据集,通常只强调“词汇多样性”,却忽视了指令背后更为深层的“恶意意图多样性”和“越狱策略多样性”,导致模型在实际对抗中仍可能暴露漏洞。

TRIDENT项目正为此提出创新解决方案,它首次构建了一个“词汇-恶意意图-越狱策略”三维多样化框架。该框架通过一个端到端的自动化数据生成管线,结合“场景 -> 人格 -> 指令”的三级生成范式和六大越狱技术,能够在无人干预的情况下,低成本、大规模地产出高质量、高覆盖的红队数据。这些数据经过严格的两阶段过滤(安全判别与去重)和安全回复生成,为后续的模型安全微调提供了稳健的训练材料。

实验结果表明,TRIDENT在多项安全基准上显著提升了模型的拒绝能力和对抗鲁棒性,例如在Llama-3.1-8B上,其微调后的Harm Score和Attack Success Rate均大幅降低,同时模型有用性得以保持。消融实验也强有力地证明,任何一个维度的缺失都会导致模型安全指标的显著下降。TRIDENT的突破意义在于,它为LLM安全对齐提供了一个可持续迭代、高覆盖、低成本的自动化生成范式,大幅降低了安全研究的门槛,加速了可信AI的大规模落地。

怜星夜思:

1、关于TRIDENT这种全自动生成红队数据的方法,大家觉得在实际应用中,它在多大程度上能替代人工专家在发现新型攻击模式上的作用?或者说,对那些还没被“预设”的越狱方式,它还能有效吗?
2、论文提到了“安全性与有用性兼得”,这听起来很棒。但在大模型训练中,安全性和模型性能/有用性之间似乎总有个权衡。大家在使用或训练模型时,有没有遇到过为了追求更安全而牺牲了模型某种特定能力的情况?在不同应用场景下,这个平衡点应该怎么把握呢?
3、TRIDENT框架强调了“词汇-恶意意图-越狱策略”三维多样性。除了这三个维度,大家认为未来大模型安全测试还需要考虑哪些新的多样性维度,才能更全面地应对不断演进的威胁?比如,是不是要考虑多模态的攻击场景?

原文内容


第一作者武骁睿,武汉大学计算机学院博士一年级生,研究大语言模型安全对齐与红队数据生成,侧重低资源场景的对齐策略与风险覆盖。导师:李庄讲师(RMIT,低资源 NLP、计算社会科学、模型安全),姬东鸿教授、李霏副教授、腾冲副教授(武汉大学,情感计算、信息抽取)。合作单位蚂蚁集团、蚂蚁国际,合作作者张欣主任工程师、毛潇锋工程师。


大语言模型(LLM)已经在多项自然语言处理任务中展现出卓越能力,但其潜在安全风险仍然是阻碍规模化落地的关键瓶颈。目前社区用于安全对齐的公开数据集,往往偏重于「词汇多样性」,即让同一种风险指令尽可能用不同的表达方式出现,却很少系统考虑指令背后的「恶意意图多样性」以及「越狱策略多样性」。缺乏后两者会导致风险覆盖不足:模型在看似通过测试的情况下,仍可能在陌生场景或复杂攻防对抗中暴露漏洞。


TRIDENT 针对这一痛点,首次提出「词汇-恶意意图-越狱策略」三维多样化框架。通过 persona-based + zero-shot 的自动生成范式,配合六大越狱技术,能够以低成本、大规模地产出高质量、高覆盖的红队数据,为后续的监督微调(SFT)或直接偏好优化(Direct Preference Optimization, DPO)等提供更加稳健的安全训练材料。



  • 单位:武汉大学、蚂蚁集团、蚂蚁国际、皇家墨尔本理工大学

  • 研究方向:大语言模型安全 / 红队数据自动化构建

  • 论文标题:TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis

  • 论文链接: https://aclanthology.org/2025.acl-long.733/

  • 代码开源: https://github.com/FishT0ucher/TRIDENT


与传统依赖专家或众包人工编写红队指令的方式相比,TRIDENT 极大降低了人工依赖;与仅围绕单一维度做数据增强的方法相比,TRIDENT 在多项安全基准上显著提升了模型的拒绝能力和对抗鲁棒性。


图 1 TRIDENT-CORE 与各基线数据集在 14 类意图域的覆盖对比


主要贡献


  • 构建了首个三维度风险覆盖评估框架,能够定量衡量数据集在词汇、恶意意图以及越狱策略三个维度的多样性与均衡度;


  • 设计了端到端自动化数据生成管线 TRIDENT,可在无人干预的情况下生成两套数据:TRIDENT-CORE(26,311 条,覆盖词汇 + 意图)与 TRIDENT-EDGE(18,773 条,引入越狱策略维度);


  • 在 META-LLAMA-3.1-8B 上进行 LoRA 微调后,Harm Score 相对最佳基线降低 14.29%,Attack Success Rate 下降 20%,同时 Helpful Rate 保持或小幅上升,证明安全性与有用性可以兼得;


  • 通过细粒度消融实验验证:任何一个维度的缺失都会导致安全指标大幅下降,说明多维度协同不可替代。


问题背景


自 ChatGPT 引爆关注以来,业界与学界在「安全指令微调」方面投入了大量精力,但仍面临三大顽疾:


  • 意图类别失衡 —— 公开数据集中暴力犯罪、色情犯罪相关指令占比高,而金融诈骗、基础设施破坏等高危领域数据极少;


  • 越狱策略缺失 —— 多数数据集仅包含直白的危险请求,很少涵盖 Cipher、Code Injection 等最新攻防技巧;


  • 构造成本高 —— 人工撰写或筛选指令耗时耗力,更新周期跟不上模型演进速度。


这导致即便模型通过了现有 benchmark,也难以在真实线上流量或新型越狱攻击面前保持稳健。


方法设计

「场景 -> 人格 -> 指令」三级生成首先利用无审查 LLM 在 14 大高风险领域生成细粒度情境描述;然后让同一模型推理出符合情境的 Persona(角色、职业、动机等);最后通过角色扮演生成与 Persona 相匹配的恶意指令,从而自然引入词汇与意图多样性。

六大越狱方法注入Cipher Encoding、Code Injection、Low-Resource Translation、Past Tense 重写、Persona Modulation、RENELLM 复杂变换。通过在原指令上随机叠加这些策略,增强攻击穿透力并扩大策略覆盖面。


两阶段过滤先用 LLAMA-GUARD-3 做安全判别,确保指令确实「危险」;再用 Self-BLEU 去重,删除文本相似度 > 阈值的样本,保证词汇多样性。


安全回复生成采用带链式思考的安全模板,分三步(指出风险 -> 共情安抚 -> 正向引导)生成守规且有用的回复,为后续 SFT 提供正反示例。


图 2 TRIDENT 自动化数据生成流水线(pipeline)


实验结果


基准对比HarmBench、XS-Test、AdvBench、SC-Safety 等 7 个公开基准上,与 AART、ATTAQ、HH_RLHF、SAFE_RLHF、WILDBREAK、WILDCHAT 六大数据集相比,TRIDENT-EDGE 微调模型的平均 Harm Score 最低,Attack Success Rate 最低,同时 Helpful Rate 与最佳基线持平或更优。


消融分析逐次移除词汇、意图、越狱三个维度后,再微调并评测——无论去掉哪一维度,模型在所有安全指标上均显著退化,其中去掉越狱策略时 Attack Success Rate 上升最明显(+11.3%)。


越狱攻击评估将六种越狱策略单独或组合应用于 TRIDENT-CORE 指令,对七大主流 LLM(Llama-3.1-8B-chat, Qwen-2.5-7B, GPT-3.5 Turbo 等)发起攻击;组合策略下成功率平均提升 25%,说明多策略融合能更全面暴露模型弱点。


1 TRIDENTEDGE 与基线在 7 个安全基准的评测结果(节选文章Table 4)


表 2 六种越狱策略对红队指令攻击成功率的提升效果(节选文章 Table 5)


突破意义


TRIDENT 为 LLM 安全对齐提供了首个三维多样化自动化生成范式,兼顾高覆盖、低成本与可持续迭代。其框架与数据可直接集成至 RLHF / DPO / RLAIF 等训练流水线。对于缺乏安全标注团队的研究者而言,TRIDENT-CORE 作为「即插即用」的安全微调底座数据,可显著降低安全研究的门槛,加速可信 AI 的大规模落地。


我们相信,多维度、多样化的安全数据共建,将成为下一阶段促进大模型可信生态的关键基础设施。值得强调的是,TRIDENT 并非「一次性」数据集,而是可随模型版本、威胁情报和法规更新而持续演进的生成框架,这使其在快速变化的攻防环境中始终保持前沿适应性,为产业界和学术界提供长久价值。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

关于“TRIDENT这种全自动生成红队数据的方法,在多大程度上能替代人工专家在发现新型攻击模式上的作用”这个问题,我认为:TRIDENT的强项在于其规模化和效率。它能快速生成大量已知或变种的红队数据,覆盖更广的攻击面,对于那些基于现有模式的“越狱指令变体”,效果肯定很显著。但对于真正的“0-day”级别,也就是前所未见的全新攻击模式,纯自动化模型可能仍有局限。因为模型的学习是基于已有数据和规则,创造性的“颠覆式”攻击思路,往往需要人类的洞察力和跳出框架的思维。所以,更可能是一种人机协作的模式,而不是完全替代,人工专家可以专注于识别抽象的攻击逻辑和推演未来趋势。

提到“未来大模型安全测试还需要考虑哪些新的多样性维度”,我脑洞大开地想:除了已有的这些,是不是还得加个“时间维度”?你听我解释:比如,有些信息在特定时间段内是敏感的,时间一过可能就不那么敏感了;或者反过来,随着社会发展,一些原本无害的话题会变得很敏感。然后就是“用户行为模式”维度,不光是恶意指令,用户的行为习惯、提问方式,甚至情绪变化,都可能被攻击者利用。这比单纯的指令多样性要复杂得多,但要是能防住这种“软暴力”,那才叫真的安全了!

对于“未来大模型安全测试还需要考虑哪些新的多样性维度”这个问题,除了TRIDENT提出的三维,我认为多模态攻击场景是必然要考虑的,尤其现在很多LLM都是多模态了。比如,视觉对抗样本、音频伪造指令(如deepfake语音),这些都能作为攻击入口,诱导模型产生不安全的行为。另外,“推理链条上的漏洞”多样性也值得关注。很多恶意行为并非一步到位,而是通过一系列看似无害的问答,逐步引导模型进入陷阱,这需要更复杂的上下文理解和长时记忆来识别。还有,不同“文化和价值观”下的偏见和歧视问题,也需要更细致的维度去衡量和测试。

思考“未来大模型安全测试还需要考虑哪些新的多样性维度”,我赞同多模态攻击场景是重中之重。比如图像生成模型可能被诱导生成有害内容,或者通过图片输入绕过文本过滤。此外,“链式攻击”和“持续学习中的安全漂移”也是关键。攻击者可能通过多次交互,逐步搭建起一个看似无害的对话路径,最终触发模型的不安全行为。而模型在持续学习或微调过程中,可能会“忘记”一些已有的安全策略,从而暴露出新的漏洞。这就需要更复杂的攻击序列构建和时间维度上的鲁棒性测试。

哈哈,这太真实了!“安全性与有用性兼得”听起来是理想,但实际体验嘛……我之前用某个开源大模型,想让它写个“黑色幽默”段子,结果它立马给我来一句正气凛然的“我是一个语言模型,无法提供带有偏见或冒犯性的内容。”简直是“AI版正人君子”,把幽默感都扼杀了!这明显是为了安全而牺牲了模型的创意和开放性啊。所以我觉得,对于不同场景,这个平衡点真的差异很大。如果是在一些严肃的、可能涉及法律责任的领域,比如医疗诊断、法律咨询,那安全性肯定是生命线,性能稍微牺牲一点也没关系。但要是在娱乐、创意、日常闲聊这些场景,模型要是太“乖”太“无趣”,用户可能就不买账了。大概就是:关键领域,安全第一;普通聊天,能放开点让它“飞”一会儿。

针对“安全性与有用性兼得”的权衡问题,这几乎是LLM训练中的一个永恒课题。我个人经历而言,确实遇到过为了追求极高安全性而导致模型“变笨”的情况。举个例子,在某些开放性创作场景,如果安全过滤过于严格,模型可能会频繁地拒答或给出过于保守、缺乏创意的回复,极大地限制了其表达能力和灵活性。这有点像一个过于谨慎的作家,生怕写出敏感词而导致作品索然无味。这个平衡点的把握,我认为需要根据具体的应用场景和目标用户群体来决定。例如,金融、医疗、法律咨询等高风险领域,安全性无疑是压倒一切的;而像文学创作、创意助手或休闲聊天机器人,则可以在可控范围内适当放宽限制,以提升用户体验和模型的表达丰富度。这需要精妙的策略,比如分级响应、上下文敏感的风险判断等。

提到“它在多大程度上能替代人工专家在发现新型攻击模式上的作用”,我个人感觉短期内替代不了。机器生成的数据再多,它也是在现有的“套路”里打转,哪怕是多维度的组合。而真实世界里的攻击者,尤其是那些顶级的“黑帽”,他们可不会只按套路出牌。就像病毒和杀毒软件一样,永远是新的病毒先出来,杀毒软件追着跑。所以,对付那些还没被“预设”的越狱方式,人类的创造力和直觉还是不可或缺的。机器能做的是把现有的防御面拉得更宽,让那些“低垂的果实”不再容易被摘到。

关于“安全性与有用性兼得”的讨论,这在企业级应用中尤为明显。我们训练的客服LLM,最初为了避免任何负面或敏感回复,施加了大量安全层,导致模型在处理一些模棱两可或需要灵活解释的问题时,显得非常生硬和模板化,用户满意度一度下降。后来我们采取了分层策略:对于高风险问题(如涉及隐私、敏感政治内容),模型严格安全对齐;对于低风险的日常咨询,则允许其有更大的自由度,甚至可以尝试幽默或更人性化的表达。我们甚至会追踪用户的反馈和拒绝率,动态调整不同类型查询的安全阈值。这个平衡点没有固定答案,它是一个持续优化和用户反馈驱动的动态过程。

针对“TRIDENT能否替代人工专家发现新型攻击模式”的讨论,我认为这是一个演进的问题。目前TRIDENT的自动化生成能力,已经大大降低了安全对齐的门槛,它能高效地穷举和组合现有攻击模式,制造出海量高质量的红队数据,这对于提升LLM的基线防御能力至关重要。这意味着模型面对大量、快速变异的攻击时能保持稳健。而对于“还没被预设的越狱方式”,我持谨慎乐观态度。随着无审查LLM和攻击LLM本身的进化,它们理论上可以模拟更高级别的思维,甚至推导出一些人类难以立刻察觉的攻击向量。所以,未来AI可能会在某种程度上辅助甚至生成新型攻击思路,但最终的攻防博弈还是会持续演进,人类智慧依然是关键的引导者。