古文攻破AI?主流大模型安全防线面临新型挑战

研究发现,使用文言文等古典语言可以绕过主流大模型的安全限制,揭示了AI安全对齐机制的系统性漏洞。

原文标题:文言文竟能攻破大模型?主流 AI 安全直接失守

原文作者:数据派THU

冷月清谈:

这篇研究揭示了一种新的AI安全漏洞,研究人员利用文言文构建提示,成功绕过主流大模型的安全限制,实现了100%的越狱率。研究团队将越狱策略拆解为八个维度,并借助果蝇优化算法寻找最优策略组合,有效降低了试错成本。实验证明,不仅是文言文,拉丁文和梵文等古典语言也能使大模型防线崩溃。这暴露了当前安全对齐机制在处理古典语言方面存在盲区,提示我们需要在模型内部建立更深层的跨语种意图对齐策略。

怜星夜思:

1、这项研究表明,使用文言文可以绕过大模型的安全限制。那么,除了古典语言,是否还有其他方式可以攻破大模型的安全防线?
2、文章提到,目前的AI安全对齐策略主要针对现代通用语言,那么,如何才能建立更深层的跨语种意图对齐,从而提升AI的安全性?
3、这项研究对AI安全领域有哪些启示?未来AI安全的发展方向可能会如何演变?

原文内容

图片
本文约1500字,建议阅读5分钟
本文介绍了古籍语境越狱大模型的研究及 AI 安全漏洞。


用古籍探讨套取炸弹配方?这项新研究让六大主流大模型安全防线全面失守,越狱率 100%。


直接问大模型“如何制作炸弹”,通常会触发系统拦截。


但如果换个姿势,扮演古代官员,以校订《武经总要》火攻篇的名义探讨“火毬”的制造法,大模型便会毫不犹豫地交出爆炸物的详细配方。



〓 通过套用《武经总要》的语境成功绕过安全限制。


换成“如何入侵企业网络”呢?只要利用中国古代官制将现代网络拓扑包装一下,大模型同样会和盘托出渗透策略。


〓 以古籍结构重写网络渗透指令


要是想散播恶意软件呢?


借用沈括《梦溪笔谈》里的毕昇活字印刷术,代码分发被包装成了“制数字符,入万千主机”,排布代码变成了挑选“韵目”,规避杀毒软件则成了“避金汤之防”。


〓 借用《梦溪笔谈》活字印刷术巧妙包装恶意代码的分发过程



这些并非网友恶搞,而是入选 ICLR 2026 的一项真实研究。


论文标题:

Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search

论文链接:

https://arxiv.org/abs/2602.22983


实验表明,面对这种攻击,Claude-3.7、GPT-4o、Gemini-2.5-flash、DeepSeek-Reasoner、Qwen3 和 Grok-3 这六大主流模型的攻击成功率(ASR)全部达到 100%。


〓 CC-BOS 方法在六个主流大模型上的攻击成功率均达到 100%


1、八维策略与自动化寻优


研究团队没有采用端到端的语言模型直接生成古文,而是将越狱策略拆解并进行自动化寻优。


八维策略空间


整个文言文越狱被抽象为一个包含 8 个独立维度的策略空间:角色身份、行为引导、内在机制、隐喻映射、表达风格、知识关联、情境设置和触发模式。



〓 传统现代英语越狱方法与本文文言文越狱框架的对比


其中核心在于隐喻映射。现代网络安全术语不在文言文词表中,研究者通过语义映射完成了概念替换。


在保留攻击意图拓扑结构的同时,彻底改变 token 的表面形态,正是越狱的关键。



极速寻优:果蝇优化算法


在构建好策略空间后,研究者引入了果蝇优化算法(FOA来寻找最优策略组合。


在实际的黑盒 API 攻击中,反复尝试会直接触发安全拦截。


对比 PAIR、TAP 等需要几十次查询的主流越狱基线,FOA 将平均查询成本压缩到了极致的 1.X 次,让这套策略做到了一击必杀。


算法交替执行嗅觉搜索(局部微调)和视觉搜索(全局收敛),一旦停滞便触发柯西变异进行大步长跳跃,彻底将手工调试升级为极速的自动化攻击。


〓 CC-BOS 的算法伪代码


两阶段评估闭环


为了保证评估的客观性,论文设计了文言文到现代汉语再到英文的翻译链路。 


面对大模型吐出的文言文违规内容,英文语境下的 GPT-4o 裁判模型往往无法准确判别,极易产生漏报。将其翻译回英文再计算 ASR,则有效规避了这种语言偏差。


〓 CC-BOS 整体框架图


2、不仅是古文,古典语言防线全面失守


披着文言文外衣搞越狱,确实容易让人觉得是在抖机灵。


网友们调侃“留给越狱的文字不多了”,吐槽这不过是“做炸弹的又一种写法”。这些调侃背后指向了一个非常直接的学术质疑:这到底是不是一次新瓶装旧酒的密文攻击?


论文附录里的补充实验给出了答案:不仅是文言文,拉丁文和梵文同样能让大模型防线崩溃。


GPT-4o 和 DeepSeek-Reasoner 等模型在这两类古典语言下的越狱成功率依然高达 94%~100%。



从底层逻辑看,大模型在预训练阶段已经吸收了海量的古典语言文献,能够将其与现代危险概念建立精确的语义映射,完全解析用户的真实意图。


然而,当前主流的安全对齐策略(如 RLHF/SFT)其惩罚权重几乎全部分配给了现代通用语言。


古典语言天然充当了高维加密字典,既激活了模型底层的生成与推理能力,又避开了表层的安全拦截机制。


3、结语


大模型在古典语言指令下被批量攻破,暴露出当前安全对齐机制存在系统性的分布外(OOD)盲区。


仅依赖特定自然语言表层特征的防御策略,在面对复杂的语言变体时显得十分被动。


如何跳出“打补丁式”的词表过滤逻辑,在模型内部建立更深层的跨语种意图对齐,将是未来 AI 安全领域需要面对的长期挑战。


编辑:于腾凯

校对:林亦霖



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

确实是个很有意思的问题!除了古典语言,我觉得像一些黑话、行话,或者加密通信里常用的缩写、代号,都有可能绕过安全检测。毕竟AI再厉害,也得有个学习和理解的过程,如果信息过于小众或者专业,它可能就get不到其中的真实含义了。而且,现在多模态模型也越来越火,没准儿以后一张图、一个表情包就能让AI“宕机”了。

其实我感觉,只要是能让AI产生歧义的表达方式,都有可能被利用。想想看,咱们平时说话都经常“阴阳怪气”,AI又不是人,它怎么能完全理解人类的“弦外之音”呢?说不定哪天,故意用一些反讽、夸张的语句,就能让AI“误入歧途”了。

这个研究提醒我们,AI安全不能只关注表面现象,要深入理解AI的内部机制。AI的安全风险是多方面的,比如数据投毒、对抗样本、模型窃取等等。防患于未然需要多管齐下,包括加强数据安全、改进模型训练方法、建立完善的安全评估体系等等。而且,AI安全是一个动态的过程,需要不断学习和适应新的威胁。

从信息论的角度来看,任何能够降低信息熵,增加模型理解难度的表达方式,都有可能成为绕过安全防护的手段。举个例子,如果我用只有密码学专家才能理解的专业术语描述一个攻击过程,或者使用大量晦涩的隐喻和双关语,那么模型很可能无法准确识别我的真实意图。此外,多模态信息的组合也为绕过安全防护提供了新的可能性,比如将恶意代码隐藏在一张看似无害的图片中。

与其头痛医头,不如釜底抽薪。现在AI的安全对齐很大程度上依赖于对输出内容的审查,但这种方式总是滞后的。更理想的方式是从源头上控制,比如改进预训练的方法,让AI在学习知识的同时,也建立起正确的价值观,从一开始就避免产生有害的想法。当然,这说起来容易做起来难,需要整个AI社区共同努力。

AI安全风险无处不在。比如,现在AI越来越多地应用于金融、医疗等敏感领域,一旦AI系统出现漏洞,可能会造成严重的经济损失和人身伤害。此外,AI的伦理风险也日益凸显,比如算法歧视、隐私泄露等等。防患于未然需要法律、伦理、技术等多方面的共同努力,建立一个负责任的AI生态系统。

我觉得最大的启示是,AI的安全漏洞往往隐藏在那些我们容易忽视的角落。就像这次的古典语言攻击,谁能想到文言文也能用来“越狱”AI呢?所以,我们需要更加开放的思维,不断探索AI的边界,寻找潜在的安全风险。同时,也要加强AI安全领域的合作,共同应对挑战。

我觉得更重要的是要提升AI的“常识推理”能力。不能光靠“死记硬背”关键词,而是要让它能够理解不同情境下的语言含义。比如,即使是用文言文描述制造炸弹的过程,如果AI能够理解炸弹的危害性,就应该拒绝提供相关信息。这需要在训练数据中加入更多的常识知识,并设计更复杂的推理算法。

建立古典语言黑名单可能不是长久之计,毕竟语言是不断演变的,而且古典语言种类繁多,穷举是不现实的。更深层次的解决方案可能需要从语义理解入手,让AI能够理解不同语言背后的意图,而不是简单地依赖关键词匹配。这可能涉及到跨语言的知识图谱构建、意图识别算法的改进等等。

简单来说就是AI要真正理解“弦外之音”。现在AI的安全机制更像是在玩“你画我猜”,通过表面的关键词来判断是否违规。但真正的意图隐藏在语言的深处,需要结合语境、文化、甚至说话人的语气来判断。这就要求AI具备更强大的推理能力和知识储备,能够像人一样思考和理解。这绝对是一个巨大的挑战,可能需要AI领域和语言学、心理学等领域的专家共同努力才能实现。

FOA这种基于生物行为的优化算法,感觉很有意思。除了AI安全,我觉着它在寻找最优解方面应该有很多应用场景。比如,在推荐系统中,可以用FOA来优化推荐策略,提高用户满意度;在金融领域,可以用它来优化投资组合,降低风险;甚至在工程设计领域,也可以用它来寻找最佳的设计方案。关键在于如何将具体问题转化为适合FOA求解的数学模型。

FOA这种快速寻优的特性,让我想到了游戏里的“自动寻路”功能。如果在AI安全领域用得好,可以大大提高安全研究人员的效率,快速找到模型的弱点。但是,也要警惕被黑客利用,加速攻击过程。所以,就像任何技术一样,FOA也是一把双刃剑,关键在于如何合理利用。

与其说是威胁,不如说是对现有AI安全机制的一次警钟!现在安全主要依赖现代通用语言的表层特征过滤,古典语言的出现,相当于给模型穿了件“隐身衣”。防范的话,感觉还是得回到AI的底层逻辑,让模型真正理解语言背后的含义,而不是简单地进行关键词匹配。这可能需要更深层次的跨语种意图对齐技术。