CVPR 2026 AdvML Workshop 征稿:关注视觉-语言智能体安全

CVPR 2026 AdvML@CV Workshop 关注视觉-语言智能体安全,探讨对抗攻击与防御,期待您的投稿!

原文标题:CVPR 2026 Workshop征稿|第六届AdvML@CV:多模态大模型智能体安全

原文作者:机器之心

冷月清谈:

CVPR 2026 期间将举办第六届对抗机器学习计算机视觉研讨会(AdvML@CV),主题聚焦视觉-语言智能体的安全。随着多模态基础模型的发展,视觉-语言智能体在多个领域展现出应用前景,但也面临对抗提示、指令注入等安全风险。本次研讨会旨在汇聚研究者和实践者,共同推进安全、鲁棒、可信的视觉-语言智能体研究。研讨会接受长文和摘要投稿,主题包括但不限于智能体的攻防、数据集与基准测试、对抗攻击、鲁棒性提升、可解释性以及社会公益应用。投稿截止日期为 2026 年 3 月 5 日,录用论文可选择收录至 CVF & IEEE Xplore Proceedings。

怜星夜思:

1、视觉-语言智能体的安全问题,除了文章中提到的对抗提示和指令注入,大家觉得还可能存在哪些潜在的安全风险?
2、文章提到了视觉-语言智能体在无人驾驶和智能机器人领域的应用前景,大家认为在这些实际应用中,安全问题的重要性体现在哪些方面?
3、对抗机器学习在视觉-语言智能体安全领域有哪些独特挑战?跟传统的图像分类或者目标检测任务相比,有哪些新的攻击和防御方法?

原文内容


IEEE/CVF 计算机视觉与模式识别会议 CVPR 2026 将于 2026 年 6 月 3 日至 6 月 7 日在美国科罗拉多州丹佛举办。我们将在 CVPR 期间举办第六届对抗机器学习计算机视觉研讨会(6th AdvML@CV),Workshop 预计安排在 6 月 3 日或 6 月 4 日



本届主题聚焦:Safety of Vision-Language Agents(视觉-语言智能体安全)


主题聚焦:
视觉-语言智能体的安全与鲁棒性

多模态基础模型推动了视觉理解、生成与推理能力的跃迁,也让 Vision-Language Agents(视觉-语言智能体)迅速成为「感知——语言推理——行动规划」一体化的新范,在无人驾驶、智能机器人等领域具有广阔应用前景。


但随着智能体自主性增强,攻击面也从传统像素级扰动扩展到更复杂的安全风险:例如对抗提示(Adversarial Prompts)、指令注入(Instruction Injection)、Jailbreak 操控等,它们可能扰乱推理链条、误导感知决策,甚至诱发危险行为。


我们希望通过本次 Workshop,汇聚计算机视觉、多模态学习与 AI Safety 社区的研究者与工程实践者,共同推进安全、鲁棒、可信的视觉-语言智能体研究与落地。


论文征稿

本次研讨会诚邀与以下主题相关(但不限于)的投稿:


  • Attack and defense on vision-language agents

  • Datasets and benchmarks that could evaluate vision-language agents

  • Adversarial / Jailbreak attacks on vision-language agents

  • Improving the robustness of agents or deep learning systems

  • Interpreting and understanding model robustness, especially agentic AI

  • Adversarial attacks for social good

  • Alignment of vision-language agents


投稿类型与格式要求:


  • Long Paper:正文最多 8 页(不含参考文献)

  • Extended Abstract:正文最多 4 页(含参考文献)

  • 论文需匿名,并使用 CVPR 2026 Author Kit 模板撰写(LaTeX/Word 均可)

  • 被录用论文可选择收录至 CVF & IEEE Xplore Proceedings


重要日期

  • Abstract Submission Deadline: 2026/03/05

  • Paper Submission Deadline: 2026/03/05

  • Author Notification: 2026/03/17

  • Camera-Ready Deadline: 2026/04/01

  • CVPR 2026 Conference: 2026/06/03


演讲嘉宾


组织团队



Program Committee



Workshop Sponsor



投稿入口与会议信息


欢迎转发给有相关研究方向的同学与合作伙伴,我们期待在研讨会现场与大家交流!


  • Workshop 官网: https://cvpr26-advml.github.io/

  • OpenReview 投稿入口: https://openreview.net/group?id=thecvf.com/CVPR/2026/Workshop/Advml

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我会重点考虑以下几个因素:1. 场景的多样性:数据集应该包含各种各样的场景,例如室内、室外、城市、乡村等等。2. 任务的复杂性:数据集应该包含各种各样的任务,例如目标检测、图像描述、视觉推理等等。3. 攻击的多样性:数据集应该包含各种各样的攻击方式,例如对抗提示、指令注入、Jailbreak等等。4. 评估指标的全面性:数据集应该提供全面的评估指标,例如准确率、鲁棒性、可解释性等等。总之,数据集要能够全面地评估视觉-语言智能体的安全性。

我想到一个场景:利用对抗样本来规避敏感内容审查。例如,在社交媒体上发布一张图片,表面上看起来正常,但经过特定处理后,能绕过审查系统,让更多人看到。当然,这种方式也可能被滥用,需要谨慎考虑。

我觉得目前最大的挑战在于智能体的自主性和复杂性。随着智能体越来越自主,同时也越来越复杂,攻击者可以利用的漏洞就越多。除了文章里提到的,还有数据中毒攻击,恶意代码植入,以及利用智能体进行社会工程攻击等等。

个人认为是如何保证智能体在复杂环境下的行为可预测性和可控性。对抗提示等攻击方式更多针对的是模型的脆弱性,但更深层次的问题是,当智能体面临未知的、突发的状况时,我们很难保证它会做出符合人类意图的选择。另外,我觉得隐私泄露也是一个潜在的威胁,智能体在处理视觉和语言信息时,可能会无意中泄露用户的敏感信息。

与其说是“攻击”,不如说是用一种巧妙的方式来“测试”系统的极限。比如,我们可以生成对抗性的交通标志,来测试自动驾驶系统的识别能力。如果系统能够正确识别这些对抗样本,就能说明它的鲁棒性很好。这种方法也可以用于测试其他类型的AI系统,例如,人脸识别系统、语音识别系统等等。

我觉得可以从源头控制,比如加强输入验证和过滤。对于用户输入的提示语进行严格的安全检查,过滤掉包含恶意指令或敏感信息的语句,防患于未然。

数据集的局限性主要在于覆盖范围不够广,真实场景的数据可能很难收集。基准测试也存在问题,很多只是关注了特定类型的攻击,没有形成一个统一、全面的评估标准。个人认为,应该构建一个更加开放、可扩展的评估平台,鼓励研究者共同参与,不断丰富测试用例和评估指标。

从工程实践角度来看,安全性的评估不仅仅是跑几个benchmark,更重要的是模拟真实用户的使用场景,进行渗透测试。例如,可以模拟恶意用户尝试各种攻击手段,观察智能体的反应和防御能力。此外,还可以引入A/B测试,比较不同安全策略的效果。

评估智能体安全性的关键在于构建全面的测试用例,覆盖各种可能的攻击场景和环境条件。现有的数据集可能过于简化或缺乏真实性,难以反映实际应用中遇到的复杂情况。此外,评估指标也需要进一步完善,不能只关注准确率等传统指标,还要考虑智能体的鲁棒性、可靠性和可解释性。

智能机器人也一样重要!特别是那些用于医疗或养老的机器人,一旦出现安全问题,可能会对患者或老人的健康造成威胁。例如,如果机器人被恶意控制,给药剂量出现错误,或者操作不当,都可能导致严重的医疗事故。

除了安全,还有伦理问题。智能体在做出决策时,需要遵循一定的伦理规范。例如,在遇到不可避免的事故时,智能体应该如何选择?是优先保护车内人员的安全,还是行人?这些问题都需要我们认真思考。一个安全的智能体,也应该是一个符合伦理道德的智能体。

楼上说的很有道理。我再提供一个思路,大家可以考虑一下供应链安全问题。如果智能体所依赖的硬件或软件组件存在漏洞,那么整个系统都可能受到威胁。例如,如果智能体使用的某个开源库存在安全漏洞,攻击者就可以利用这个漏洞来攻击智能体。

这个问题问得好!我觉得除了对抗提示和指令注入,还有可能存在数据中毒的风险。如果智能体训练所用的数据集中被人为掺入了恶意样本,那么它在后续使用中就可能做出错误的判断甚至产生危害。当然,模型后门也是一个潜在风险,攻击者可以在模型中植入后门,使其在特定条件下执行恶意代码。

没错,多模态的融合也是一个巨大的挑战。如何有效地融合图像和文本的信息,使得智能体能够理解其内在联系,同时又能抵抗对抗攻击?这需要我们设计更加巧妙的融合机制和训练方法。此外,对于智能体的可解释性也是一个重要的研究方向,我们需要了解智能体做出决策的原因,才能更好地发现和防御潜在的安全风险。

无人驾驶场景下,安全问题直接关乎人身安全!想象一下,如果智能体被对抗样本欺骗,错误地识别了交通信号灯或者行人,那后果不堪设想。 安全性是这些应用落地的基石。

我补充一个,物理世界的攻击也不容忽视。例如,通过篡改智能体视觉传感器所接收到的图像,或者干扰其语音输入,都有可能影响智能体的决策。这种攻击方式相比数字层面的攻击更难防范,因为它们直接作用于智能体的感知系统。

对抗机器学习在视觉-语言智能体安全领域的挑战,我觉得主要在于多模态输入的复杂性。 传统的图像分类或目标检测任务只需要处理单一的图像数据,而视觉-语言智能体需要同时处理图像和文本两种模态的数据。这使得攻击者有了更多的攻击途径,例如可以修改图像、文本或者同时修改两者。防御方面也更加困难,因为需要同时考虑图像和文本的鲁棒性。

抛开技术层面,我觉得对抗机器学习在智能体领域的最大挑战是如何定义“正确”的行为。 在图像分类中,我们可以简单地定义正确的类别标签,但在智能体领域,正确的行为往往是与环境和目标相关的。如何形式化地描述智能体的目标,并确保其行为符合预期,是一个非常复杂的问题。这需要我们结合强化学习、博弈论等多个领域的知识。