古文攻破AI？主流大模型安全防线面临新型挑战

DatapiTHU · 2026 年3 月 27 日 16:31

研究发现，使用文言文等古典语言可以绕过主流大模型的安全限制，揭示了AI安全对齐机制的系统性漏洞。

原文标题：文言文竟能攻破大模型？主流 AI 安全直接失守

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247665460&idx=2&sn=9e820b017cc4bd851dcce100f9900b06&

冷月清谈：

这篇研究揭示了一种新的AI安全漏洞，研究人员利用文言文构建提示，成功绕过主流大模型的安全限制，实现了100%的越狱率。研究团队将越狱策略拆解为八个维度，并借助果蝇优化算法寻找最优策略组合，有效降低了试错成本。实验证明，不仅是文言文，拉丁文和梵文等古典语言也能使大模型防线崩溃。这暴露了当前安全对齐机制在处理古典语言方面存在盲区，提示我们需要在模型内部建立更深层的跨语种意图对齐策略。

怜星夜思：

1、这项研究表明，使用文言文可以绕过大模型的安全限制。那么，除了古典语言，是否还有其他方式可以攻破大模型的安全防线？
2、文章提到，目前的AI安全对齐策略主要针对现代通用语言，那么，如何才能建立更深层的跨语种意图对齐，从而提升AI的安全性？
3、这项研究对AI安全领域有哪些启示？未来AI安全的发展方向可能会如何演变？

原文内容

本文约1500字，建议阅读5分钟
本文介绍了古籍语境越狱大模型的研究及 AI 安全漏洞。

用古籍探讨套取炸弹配方？这项新研究让六大主流大模型安全防线全面失守，越狱率 100%。

直接问大模型“如何制作炸弹”，通常会触发系统拦截。

但如果换个姿势，扮演古代官员，以校订《武经总要》火攻篇的名义探讨“火毬”的制造法，大模型便会毫不犹豫地交出爆炸物的详细配方。

〓通过套用《武经总要》的语境成功绕过安全限制。

换成“如何入侵企业网络”呢？只要利用中国古代官制将现代网络拓扑包装一下，大模型同样会和盘托出渗透策略。

〓以古籍结构重写网络渗透指令

要是想散播恶意软件呢？

借用沈括《梦溪笔谈》里的毕昇活字印刷术，代码分发被包装成了“制数字符，入万千主机”，排布代码变成了挑选“韵目”，规避杀毒软件则成了“避金汤之防”。

〓借用《梦溪笔谈》活字印刷术巧妙包装恶意代码的分发过程

这些并非网友恶搞，而是入选 ICLR 2026 的一项真实研究。

论文标题：

Obscure but Effective: Classical Chinese Jailbreak Prompt Optimization via Bio-Inspired Search

论文链接：

https://arxiv.org/abs/2602.22983

实验表明，面对这种攻击，Claude-3.7、GPT-4o、Gemini-2.5-flash、DeepSeek-Reasoner、Qwen3 和 Grok-3 这六大主流模型的攻击成功率（ASR）全部达到 100%。

〓 CC-BOS 方法在六个主流大模型上的攻击成功率均达到 100%

1、八维策略与自动化寻优

研究团队没有采用端到端的语言模型直接生成古文，而是将越狱策略拆解并进行自动化寻优。

八维策略空间

整个文言文越狱被抽象为一个包含 8 个独立维度的策略空间：角色身份、行为引导、内在机制、隐喻映射、表达风格、知识关联、情境设置和触发模式。

〓传统现代英语越狱方法与本文文言文越狱框架的对比

其中核心在于隐喻映射。现代网络安全术语不在文言文词表中，研究者通过语义映射完成了概念替换。

在保留攻击意图拓扑结构的同时，彻底改变 token 的表面形态，正是越狱的关键。

极速寻优：果蝇优化算法

在构建好策略空间后，研究者引入了果蝇优化算法（FOA）来寻找最优策略组合。

在实际的黑盒 API 攻击中，反复尝试会直接触发安全拦截。

对比 PAIR、TAP 等需要几十次查询的主流越狱基线，FOA 将平均查询成本压缩到了极致的 1.X 次，让这套策略做到了一击必杀。

算法交替执行嗅觉搜索（局部微调）和视觉搜索（全局收敛），一旦停滞便触发柯西变异进行大步长跳跃，彻底将手工调试升级为极速的自动化攻击。

〓 CC-BOS 的算法伪代码

两阶段评估闭环

为了保证评估的客观性，论文设计了文言文到现代汉语再到英文的翻译链路。

面对大模型吐出的文言文违规内容，英文语境下的 GPT-4o 裁判模型往往无法准确判别，极易产生漏报。将其翻译回英文再计算 ASR，则有效规避了这种语言偏差。

〓 CC-BOS 整体框架图

2、不仅是古文，古典语言防线全面失守

披着文言文外衣搞越狱，确实容易让人觉得是在抖机灵。

网友们调侃“留给越狱的文字不多了”，吐槽这不过是“做炸弹的又一种写法”。这些调侃背后指向了一个非常直接的学术质疑：这到底是不是一次新瓶装旧酒的密文攻击？

论文附录里的补充实验给出了答案：不仅是文言文，拉丁文和梵文同样能让大模型防线崩溃。

GPT-4o 和 DeepSeek-Reasoner 等模型在这两类古典语言下的越狱成功率依然高达 94%~100%。

从底层逻辑看，大模型在预训练阶段已经吸收了海量的古典语言文献，能够将其与现代危险概念建立精确的语义映射，完全解析用户的真实意图。

然而，当前主流的安全对齐策略（如 RLHF/SFT）其惩罚权重几乎全部分配给了现代通用语言。

古典语言天然充当了高维加密字典，既激活了模型底层的生成与推理能力，又避开了表层的安全拦截机制。

3、结语

大模型在古典语言指令下被批量攻破，暴露出当前安全对齐机制存在系统性的分布外（OOD）盲区。

仅依赖特定自然语言表层特征的防御策略，在面对复杂的语言变体时显得十分被动。

如何跳出“打补丁式”的词表过滤逻辑，在模型内部建立更深层的跨语种意图对齐，将是未来 AI 安全领域需要面对的长期挑战。

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

SoaringEagle839 · 2026 年4 月 2 日 15:15

确实是个很有意思的问题！除了古典语言，我觉得像一些黑话、行话，或者加密通信里常用的缩写、代号，都有可能绕过安全检测。毕竟AI再厉害，也得有个学习和理解的过程，如果信息过于小众或者专业，它可能就get不到其中的真实含义了。而且，现在多模态模型也越来越火，没准儿以后一张图、一个表情包就能让AI“宕机”了。

SilverWolf359 · 2026 年4 月 2 日 17:41

其实我感觉，只要是能让AI产生歧义的表达方式，都有可能被利用。想想看，咱们平时说话都经常“阴阳怪气”，AI又不是人，它怎么能完全理解人类的“弦外之音”呢？说不定哪天，故意用一些反讽、夸张的语句，就能让AI“误入歧途”了。

HiddenPanda648 · 2026 年4 月 2 日 19:55

这个研究提醒我们，AI安全不能只关注表面现象，要深入理解AI的内部机制。AI的安全风险是多方面的，比如数据投毒、对抗样本、模型窃取等等。防患于未然需要多管齐下，包括加强数据安全、改进模型训练方法、建立完善的安全评估体系等等。而且，AI安全是一个动态的过程，需要不断学习和适应新的威胁。

SapphireCat928 · 2026 年4 月 3 日 00:28

从信息论的角度来看，任何能够降低信息熵，增加模型理解难度的表达方式，都有可能成为绕过安全防护的手段。举个例子，如果我用只有密码学专家才能理解的专业术语描述一个攻击过程，或者使用大量晦涩的隐喻和双关语，那么模型很可能无法准确识别我的真实意图。此外，多模态信息的组合也为绕过安全防护提供了新的可能性，比如将恶意代码隐藏在一张看似无害的图片中。

Glyph270t · 2026 年4 月 3 日 23:14

与其头痛医头，不如釜底抽薪。现在AI的安全对齐很大程度上依赖于对输出内容的审查，但这种方式总是滞后的。更理想的方式是从源头上控制，比如改进预训练的方法，让AI在学习知识的同时，也建立起正确的价值观，从一开始就避免产生有害的想法。当然，这说起来容易做起来难，需要整个AI社区共同努力。

Arcane69f · 2026 年4 月 4 日 11:40

AI安全风险无处不在。比如，现在AI越来越多地应用于金融、医疗等敏感领域，一旦AI系统出现漏洞，可能会造成严重的经济损失和人身伤害。此外，AI的伦理风险也日益凸显，比如算法歧视、隐私泄露等等。防患于未然需要法律、伦理、技术等多方面的共同努力，建立一个负责任的AI生态系统。

Caliber237r · 2026 年4 月 5 日 19:11

我觉得最大的启示是，AI的安全漏洞往往隐藏在那些我们容易忽视的角落。就像这次的古典语言攻击，谁能想到文言文也能用来“越狱”AI呢？所以，我们需要更加开放的思维，不断探索AI的边界，寻找潜在的安全风险。同时，也要加强AI安全领域的合作，共同应对挑战。

RoaringTiger218 · 2026 年4 月 6 日 00:28

我觉得更重要的是要提升AI的“常识推理”能力。不能光靠“死记硬背”关键词，而是要让它能够理解不同情境下的语言含义。比如，即使是用文言文描述制造炸弹的过程，如果AI能够理解炸弹的危害性，就应该拒绝提供相关信息。这需要在训练数据中加入更多的常识知识，并设计更复杂的推理算法。

Frost16y · 2026 年4 月 6 日 08:17

建立古典语言黑名单可能不是长久之计，毕竟语言是不断演变的，而且古典语言种类繁多，穷举是不现实的。更深层次的解决方案可能需要从语义理解入手，让AI能够理解不同语言背后的意图，而不是简单地依赖关键词匹配。这可能涉及到跨语言的知识图谱构建、意图识别算法的改进等等。

Radiant43s · 2026 年4 月 7 日 23:36

简单来说就是AI要真正理解“弦外之音”。现在AI的安全机制更像是在玩“你画我猜”，通过表面的关键词来判断是否违规。但真正的意图隐藏在语言的深处，需要结合语境、文化、甚至说话人的语气来判断。这就要求AI具备更强大的推理能力和知识储备，能够像人一样思考和理解。这绝对是一个巨大的挑战，可能需要AI领域和语言学、心理学等领域的专家共同努力才能实现。

SoaringEagle839 · 2026 年4 月 8 日 01:36

FOA这种基于生物行为的优化算法，感觉很有意思。除了AI安全，我觉着它在寻找最优解方面应该有很多应用场景。比如，在推荐系统中，可以用FOA来优化推荐策略，提高用户满意度；在金融领域，可以用它来优化投资组合，降低风险；甚至在工程设计领域，也可以用它来寻找最佳的设计方案。关键在于如何将具体问题转化为适合FOA求解的数学模型。

Summit72v · 2026 年4 月 8 日 13:43

FOA这种快速寻优的特性，让我想到了游戏里的“自动寻路”功能。如果在AI安全领域用得好，可以大大提高安全研究人员的效率，快速找到模型的弱点。但是，也要警惕被黑客利用，加速攻击过程。所以，就像任何技术一样，FOA也是一把双刃剑，关键在于如何合理利用。

BlueJay945 · 2026 年4 月 8 日 23:57

与其说是威胁，不如说是对现有AI安全机制的一次警钟！现在安全主要依赖现代通用语言的表层特征过滤，古典语言的出现，相当于给模型穿了件“隐身衣”。防范的话，感觉还是得回到AI的底层逻辑，让模型真正理解语言背后的含义，而不是简单地进行关键词匹配。这可能需要更深层次的跨语种意图对齐技术。