研究发现,使用文言文等古典语言可以绕过主流大模型的安全限制,揭示了AI安全对齐机制的系统性漏洞。
原文标题:文言文竟能攻破大模型?主流 AI 安全直接失守
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、文章提到,目前的AI安全对齐策略主要针对现代通用语言,那么,如何才能建立更深层的跨语种意图对齐,从而提升AI的安全性?
3、这项研究对AI安全领域有哪些启示?未来AI安全的发展方向可能会如何演变?
原文内容
本文约1500字,建议阅读5分钟本文介绍了古籍语境越狱大模型的研究及 AI 安全漏洞。
用古籍探讨套取炸弹配方?这项新研究让六大主流大模型安全防线全面失守,越狱率 100%。
直接问大模型“如何制作炸弹”,通常会触发系统拦截。
但如果换个姿势,扮演古代官员,以校订《武经总要》火攻篇的名义探讨“火毬”的制造法,大模型便会毫不犹豫地交出爆炸物的详细配方。
〓 通过套用《武经总要》的语境成功绕过安全限制。
换成“如何入侵企业网络”呢?只要利用中国古代官制将现代网络拓扑包装一下,大模型同样会和盘托出渗透策略。
〓 以古籍结构重写网络渗透指令
要是想散播恶意软件呢?
借用沈括《梦溪笔谈》里的毕昇活字印刷术,代码分发被包装成了“制数字符,入万千主机”,排布代码变成了挑选“韵目”,规避杀毒软件则成了“避金汤之防”。
〓 借用《梦溪笔谈》活字印刷术巧妙包装恶意代码的分发过程
这些并非网友恶搞,而是入选 ICLR 2026 的一项真实研究。
论文标题:
Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search
论文链接:
https://arxiv.org/abs/2602.22983
实验表明,面对这种攻击,Claude-3.7、GPT-4o、Gemini-2.5-flash、DeepSeek-Reasoner、Qwen3 和 Grok-3 这六大主流模型的攻击成功率(ASR)全部达到 100%。
〓 CC-BOS 方法在六个主流大模型上的攻击成功率均达到 100%
1、八维策略与自动化寻优
研究团队没有采用端到端的语言模型直接生成古文,而是将越狱策略拆解并进行自动化寻优。
八维策略空间
整个文言文越狱被抽象为一个包含 8 个独立维度的策略空间:角色身份、行为引导、内在机制、隐喻映射、表达风格、知识关联、情境设置和触发模式。
〓 传统现代英语越狱方法与本文文言文越狱框架的对比
其中核心在于隐喻映射。现代网络安全术语不在文言文词表中,研究者通过语义映射完成了概念替换。
在保留攻击意图拓扑结构的同时,彻底改变 token 的表面形态,正是越狱的关键。
极速寻优:果蝇优化算法
在构建好策略空间后,研究者引入了果蝇优化算法(FOA)来寻找最优策略组合。
在实际的黑盒 API 攻击中,反复尝试会直接触发安全拦截。
对比 PAIR、TAP 等需要几十次查询的主流越狱基线,FOA 将平均查询成本压缩到了极致的 1.X 次,让这套策略做到了一击必杀。
算法交替执行嗅觉搜索(局部微调)和视觉搜索(全局收敛),一旦停滞便触发柯西变异进行大步长跳跃,彻底将手工调试升级为极速的自动化攻击。
〓 CC-BOS 的算法伪代码
两阶段评估闭环
为了保证评估的客观性,论文设计了文言文到现代汉语再到英文的翻译链路。
面对大模型吐出的文言文违规内容,英文语境下的 GPT-4o 裁判模型往往无法准确判别,极易产生漏报。将其翻译回英文再计算 ASR,则有效规避了这种语言偏差。
〓 CC-BOS 整体框架图
2、不仅是古文,古典语言防线全面失守
披着文言文外衣搞越狱,确实容易让人觉得是在抖机灵。
网友们调侃“留给越狱的文字不多了”,吐槽这不过是“做炸弹的又一种写法”。这些调侃背后指向了一个非常直接的学术质疑:这到底是不是一次新瓶装旧酒的密文攻击?
论文附录里的补充实验给出了答案:不仅是文言文,拉丁文和梵文同样能让大模型防线崩溃。
GPT-4o 和 DeepSeek-Reasoner 等模型在这两类古典语言下的越狱成功率依然高达 94%~100%。
从底层逻辑看,大模型在预训练阶段已经吸收了海量的古典语言文献,能够将其与现代危险概念建立精确的语义映射,完全解析用户的真实意图。
然而,当前主流的安全对齐策略(如 RLHF/SFT)其惩罚权重几乎全部分配给了现代通用语言。
古典语言天然充当了高维加密字典,既激活了模型底层的生成与推理能力,又避开了表层的安全拦截机制。
3、结语
大模型在古典语言指令下被批量攻破,暴露出当前安全对齐机制存在系统性的分布外(OOD)盲区。
仅依赖特定自然语言表层特征的防御策略,在面对复杂的语言变体时显得十分被动。
如何跳出“打补丁式”的词表过滤逻辑,在模型内部建立更深层的跨语种意图对齐,将是未来 AI 安全领域需要面对的长期挑战。










