深度解析:AI时代的数据保护难题与四级分层解决方案

AI时代数据安全告急!六大顶尖机构携手提出创新四级数据保护体系,旨在平衡数据效用与控制,为生成式AI的数据风险提供系统性解决方案。

原文标题:AI「偷学」你的数据?6大顶级机构联手提出数据保护4大分级体系

原文作者:机器之心

冷月清谈:

本文深入探讨了在生成式人工智能时代,数据保护面临的严峻挑战,指出传统的数据保护方法已不再适用。文章由浙江大学、南洋理工大学、马里兰大学、IBM等六大机构顶尖研究者共同发布,旨在为科技界提供一个全新且系统性的视角来理解AI时代的数据保护问题。
文中详细阐述了AI生命周期中需要保护的五类关键数据:训练数据集、人工智能模型、部署集成数据、用户输入,以及AI合成内容(AIGC)。这些数据在AI的训练、推理和生成过程中扮演着不同角色,其泄露或滥用可能引发严重隐私、安全及版权风险,例如三星代码泄露和意大利对ChatGPT的限制事件,都敲响了警钟。
为应对这些挑战,论文提出了一个创新性的四级数据保护分级体系,由强到弱依次为:数据不可用、数据隐私保护、数据可溯源、数据可删除。这一分级体系的核心在于平衡“数据效用”与“数据控制”的关系,为开发者和监管者提供了根据实际情况选择保护策略的结构化方案。
文章还进一步探讨了该体系对现有技术分析、全球法规审视的现实意义,并指出了未来的挑战,包括数据保护与数据安全的紧密联系、AIGC带来的复杂版权争议和跨国数据治理难题,以及AI时代数据保护中不可或缺的伦理考量。这一框架为全球AI发展的数据合规与治理提供了重要的理论基础和实践指导。

怜星夜思:

1、《AI「偷学」你的数据?》这篇文章里提到了AI使用用户数据可能造成泄露的风险,比如三星的例子。作为普通用户,我们在日常使用各种AI工具时,除了文章里提到的那些,还有哪些实用的方法可以更好地保护自己的数据和隐私呢?
2、文章提出了一个四级数据保护体系,分别是数据不可用、数据隐私保护、数据可溯源和数据可删除。从实际落地和商业价值的角度看,你觉得这四个等级中,哪个在当下的AI应用中是最难实现,并且需要投入巨大成本才能做好的?为什么?
3、这篇论文还提到了AI合成内容(AIGC)的版权问题,以及AI应用的全球化特性带来的跨国数据治理难题。你认为未来有可能出现一个像GDPR那样,在全球范围内被广泛接受并执行的AI数据保护统一法规吗?如果这条路很难走通,主要的障碍会是什么?

原文内容

本文的共同第一作者为新加坡南洋理工大学博士后研究员李一鸣博士和浙江大学区块链与数据安全全国重点实验室博士生邵硕,通讯作者为李一鸣博士和浙江大学秦湛教授。其他作者包括:浙江大学博士生何宇,美国马里兰大学博士后研究员国珺峰博士,新加坡南洋理工大学张天威副教授、陶大程教授,美国 IBM 研究院首席研究科学家 Pin-Yu Chen 博士,德国亥姆霍兹信息安全中心主任 Michael Backes 教授,英国牛津大学 Philip Torr 教授,和浙江大学计算机科学与技术学院院长任奎教授。


你是否也曾担心过,随手发给 AI 助手的一份代码或报告,会让你成为下一个泄密新闻的主角?又或是你在网上发布的一张画作,会被各种绘画 AI 批量模仿并用于商业盈利?


这并非危言耸听,而是每个 AI 用户和从业者身上都可能发生的风险。2023 年,三星的一名员工被发现将公司的一份机密源码泄露给了 ChatGPT;同年,意大利数据保护机构也因担心当地居民的对话被用于境外 AI 训练,一度叫停了对 ChatGPT 的使用。随着生成式 AI 的全面普及,越来越多的用户在日常工作生活中使用 AI、依赖 AI,这些真实的事件,为每一位身处 AI 浪潮的用户和从业者敲响了警钟。


这揭示了一种深刻的变革:在 AI 时代,尤其是生成式 AI 的时代,数据不再只是硬盘中的静态文件,而是贯穿 AI 训练、推理、生成的整个生命周期中的「流体」,传统的数据保护方法(如文件加密、防火墙等)已无法应对 AI 场景下的数据保护挑战,对于用户和 AI 从业者而言,迫切需要一个全新的认知框架来全面认识生成式 AI 时代的数据保护问题,来应对数据保护挑战。


在(生成式)人工智能时代,当我们谈论数据保护时,我们在谈论什么?为了回答这一问题,来自浙江大学区块链与数据安全全国重点实验室、南洋理工大学、马里兰大学、IBM、德国亥姆霍兹信息安全中心、牛津大学的研究者们近期发布了前瞻论文《Rethinking Data Protection in the (Generative) Artificial Intelligence Era》,旨在通过通俗易懂的语言,为广大科技群体提供一个新颖的、系统性的视角看待人工智能时代下的数据保护问题。



  • 论文题目:Rethinking Data Protection in the (Generative) Artificial Intelligence Era

  • 论文链接:http://arxiv.org/abs/2507.03034


在生成式人工智能时代

哪些数据需要被保护?


在生成式人工智能时代,数据保护的范畴已远不止传统对静态数据的保护,而是要保护贯穿于整个以模型为中心的生命周期中的各种不同类型的数据,包括训练数据集、人工智能模型、部署集成数据、用户输入和人工智能合成内容。



  • 训练数据集:在模型开发的过程中,需要大量高质量的训练数据集作为模型训练的「燃料」。训练数据集往往是从多个不同数据源进行收集的,因而极有可能包含隐私或版权数据。


  • 人工智能模型:人工智能模型,包括它的架构设置和模型权重,在完成模型训练后,也同样变成了非常重要的数据资产。这些模型是对海量数据的一个压缩和凝练,不仅本身具有重大的应用价值,预训练的模型参数也同样能够帮助其他下游任务模型的快速开发,具备更广泛的产业链价值。


  • 部署集成数据:除了人工智能模型之外,在模型部署阶段,当前的人工智能应用都会引入一些额外的辅助数据,用于提高 AI 模型在实际应用中的性能和及时性。两个最突出的例子就是系统提示词和外部数据库。系统提示词能够为生成式人工智能模型提供一个统一的、事先定义的指令和上下文,用于引导模型生成更符合人类价值观或者特定风格的回复;而外部数据库被广泛用于检索增强生成当中,通过为生成式 AI 提供更新、更及时、更专业化的信息,在不需要修改模型的情况下,提高模型生成内容的准确性。


  • 用户输入:在模型推理阶段,用户的输入信息也是亟待保护的重要内容,出于隐私、安全和伦理等原因,保护这些提示数据至关重要。例如,从隐私角度来看,用户查询中包含的任何个人信息(如姓名、地址、健康详情等)都应符合数据保护法律并满足用户对隐私的期望。商业机密同样面临风险 —— 例如,员工使用 AI 编程助手并输入专有代码作为提示。若 AI 服务保留此类输入,可能导致商业秘密意外泄露。


  • 人工智能合成内容(AIGC):最后一种类型的数据是 AI 合成内容,随着生成式 AI 能力的不断提升,AI 合成内容已经达到了非常高的质量,与人类创造的内容差距越来越小,除此之外,AI 合成内容也能被用于创建大规模的合成数据集,对于 AI 模型的进一步开发等过程也有着重大的价值。


在生成式人工智能时代

我们应该如何保护数据?


为了系统性地建模 AI 时代的数据保护问题,本文提出了一个全新的数据保护分级体系,将数据保护的目标由强到弱的顺序分为四类:数据不可用、数据隐私保护、数据可溯源、数据可删除。该分类法旨在平衡「数据效用」与「数据控制」的关系,为复杂的数据保护问题提供一个结构化的解决方案,进而指导从业者和监管者根据实际情况寻找一个更好的效用 - 控制平衡。



  • 等级 1. 数据不可用(Data Non-usability):数据不可用指的是从根本上阻止数据被用于 AI 模型的训练或者推理流程,即使攻击者获取了数据,这些数据也不会对模型的学习或者预测起到任何正面作用。数据不可用是最高级别的数据保护,通过牺牲数据效用来换取绝对的保护。


  • 等级 2. 数据隐私保护(Data Privacy-preservation):数据隐私保护旨在保护数据中的隐私部分,避免个人的隐私信息(如年龄、性别、地址等)在收集和模型推理的过程中被泄露。相比于等级 1,数据隐私保护保持了一定程度的数据可用性,但仍然是很强的数据保护层级。


  • 等级 3. 数据可溯源(Data Traceability):数据可溯源指的是当数据被用于 AI 模型开发和应用时,能提供追溯数据来源、数据使用记录和数据修改的能力,这种能力使得监管者或数据所有者能够审计 AI 应用中数据的使用,从而避免数据被不当使用。实现数据可溯源通常只需要对数据进行微小的修改甚至不修改,因此能够很好地保持数据的可用性。


  • 等级 4. 数据可删除(Data Deletability):数据可删除指的是在 AI 应用中完全删除一个数据或其影响的能力,这也是许多数据保护法律法规(如欧盟 GDPR)中规定的「可遗忘权」。数据可删除使得开发者可以在数据不被需要或者被撤回许可的场景下以较低的开销消除影响,数据可删除为 AI 应用开发者提供了完整的数据可用性,但仅在数据使用的阶段提供了较弱的数据保护。


现实意义与未来挑战


本文提出的数据保护体系对理解现有技术和进一步推动当前的全球法规和应对未来的挑战,也提供了极具价值的新兴视角。


分析现有数据保护技术的设计理念:本文也介绍了针对上述四个保护级别的一系列设计理念和相应的代表性技术,为现有方法的应用和后续方法的设计提供了统一的视角和框架。


审视全球法规与治理:本文列举了当前全球代表性国家和地区关于数据保护的法律法规,用分级模型的新 “标尺” 审视现有的治理方案,分析了不同地区治理的特点、偏好和不足。


数据保护的进一步探讨和前沿挑战:除了审视当前的治理态势,本文进一步讨论了数据保护的跨学科意义和指出了一些数据保护的前沿挑战。


  • 数据保护 vs. 数据安全:数据安全旨在保护数据的内容,避免潜在的有害、有偏见的内容。在 AI 时代,数据安全与数据保护更加紧密相连,一个保护上的漏洞可能引发严重的安全问题,反之亦然。


  • AI 合成内容(AIGC)带来的新挑战:AI 合成内容的兴起带来了全新的治理难题,例如,许多国家和地区都因缺乏人类创作要素而拒绝授予 AI 合成内容版权,这就导致了 AI 合成内容的使用和监管存在灰色地带。与将 AIGC 单纯视为内容本身不同,本文的以模型为中心的数据保护视角突显了更多复杂性。当 AIGC 本身被用作数据,例如用于训练新模型的合成数据、知识蒸馏,或作为检索增强生成系统的输入时,其版权状态变得更加复杂。用于训练生成模型的原始数据的版权(或缺乏版权)是否会影响合成数据的版权状态?如果模型从受版权保护的数据中提炼知识,那么生成的训练模型(作为这些数据中所含信息的紧凑表示)或其生成的数据是否会继承相关限制?这些争议触及数据版权的核心定义:数据版权是否仅与数据内容的「直接表达」相关,还是可以进一步延伸至模型隐含捕获并可转移的统计模式、风格和知识?人工智能模型(尤其是生成式模型)将受版权保护的信息「洗白」成看似新颖且不受保护的 AIGC 内容的潜在风险,也是是一个目前值得关注的重要问题。


  • 跨国数据治理难题:AI 的产业链和系统本质是全球化的 —— 收集自一个国家的数据,可能会在另一个国家进行处理和标注,最后向全世界提供服务,这种跨国性的数据流动和各国标准不一的数据保护法规形成了尖锐冲突,从而可能会对全球化的开发者造成巨大的合规挑战。


  • 数据保护的伦理考量:AI 时代的所有数据保护都与基本的伦理考量相关联,例如,数据隐私保护和数据可删除体现的是个体对数据的自主权,数据可追溯则有助于降低偏见和提高公平性,而数据不可用是完全避免恶意利用数据的有效途径。在追求技术创新和数据效用的同时,如何平衡和维护这些核心伦理价值,是所有 AI 从业者都需要思考的命题。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得吧,全球统一的AI数据保护法规,那简直是“有生之年”系列!就拿GDPR来说,在欧洲内部都执行得磕磕绊绊,到了全球,那不得吵翻天?最大的问题就是“屁股决定脑袋”:每个国家对数据的使用、监管思路都不一样,有些国家想发展AI产业,就可能偏向宽松;有些国家特别注重公民隐私,就可能往严里管。而且,大公司的服务器可能在A国,数据采集在B国,用户在C国,这出了问题到底谁来管?别说统一立法了,光是统一认识都难如登天。指望大家和和气气坐下来签个“全球AI数据保护公约”,估计比让猫狗和平共处还难!

我觉得数据不可用(Data Non-usability)是最难实现且成本最高的。因为它要求数据即使被获取也无法被AI模型学习或预测,这意味着你可能需要采用同态加密、安全多方计算等高级密码学技术,或者对抗性样本/数据毒丸等策略。这些技术本身复杂,计算开销巨大,会严重牺牲数据效用。在商业场景中,几乎所有AI应用都追求数据驱动的精准和高效,这种“绝对保护”往往意味着“绝对牺牲”了AI的性能和商业价值,在实践中很难找到平衡点。

关于全球统一的AI数据保护法规,我持谨慎乐观态度。从国际法和数字治理的趋势来看,全球协作是必然,但也充满挑战。主要障碍在于:国家主权与利益冲突——各国对数据主权、国家安全、产业发展有不同考量;法律体系与文化差异——联邦制、大陆法系、英美法系及各国数据伦理观差异巨大;技术发展速度——AI技术迭代迅速,立法往往滞后,法规可能很快过时;执行与监管难度——跨国执行和监管的成本与复杂性极高,如何确保不同法域的有效监管是个难题。即便出现,也更可能是一种基于国际公约或多边协议的“软法”框架,而非强制性的单一法规。

从信息安全与个人数据治理的角度来看,普通用户在使用AI工具时,首先应充分理解产品的使用协议与隐私政策,明确数据处理方式。其次,采用“最小权限原则”,即仅提供AI完成任务所需的最低限度数据,避免过度分享。再者,对于关键信息,可采用本地化部署的模型或离线工具,以降低数据传输和云端存储的风险。此外,利用虚拟身份或一次性邮箱注册AI服务,也是一种有效的分散风险策略。最后,保持对AI技术更新和相关法律法规的关注,提升个人数字素养至关重要。

关于用户数据安全的问题,我觉得最直接且有效的就是:不上传敏感信息! 很多人可能觉得方便,把工作中的机密或个人隐私,比如身份证号、银行卡号、公司项目计划书什么的,直接丢给ChatGPT或文心一言这类AI。但这些大模型后台是怎么处理数据的,我们普通用户根本看不见。所以,能用脱敏数据的就用脱敏的,涉及到机密的坚决不用。另外,定期清理聊天记录和授权,就像清理浏览器缓存一样,也是个好习惯。

哈哈,这问题问到我心坎上了!我的秘诀就是:对待AI,就像对待一个有点爱打听的熊孩子。 给他点糖他开心,但家里的存折密码、宝贝玩具藏哪儿了这种事,打死也不能透露!所以,那些帮你写情书、起网名、编段子的AI,尽情用;但要是涉及公司核心技术、个人体检报告,或者帮你写辞职信(怕被老板发现),我都会想三秒,然后默默点关闭。毕竟,AI不会说谎,但它可能会把你的“真心话”不小心“说”给别人听,那就尴尬了!

我个人觉得是“数据可删除”(Data Deletability)最难缠。表面上看好像挺简单,删掉不就行了。但对于AI模型来说,数据不是简单地放在硬盘上,而是通过复杂的训练,把数据里的知识和模式“融化”到模型参数里了。你想想,让AI“忘记”它学过的某个特定信息,就像让人脑彻底清除某个记忆片段一样难。这可能需要重新训练或复杂的差分隐私机制,在模型规模巨大、训练周期长、涉及海量数据的背景下,要做到真正的“擦除影响”而不破坏模型整体性能,技术和成本都是天文数字。

我认为,类似GDPR,但覆盖全球的AI数据保护统一法规,在可预见的未来是不太可能出现的。核心难点在于地缘政治博弈与价值观分歧。AI技术已经上升到国家战略层面,各国都在抢占制高点。数据作为关键生产要素,其定义、归属、使用边界、跨境流动规则,都直接触及国家经济利益、文化认同甚至安全底线。例如,在数据“本地化”和“自由流动”上的理念冲突,处理个人敏感数据和算法公平性上的伦理差异,这些深层矛盾远超单纯的技术和法律层面。在缺乏全球性权威仲裁机构和普遍认可的伦理规范前,任何“统一”都可能是某种强制力的体现,而非普遍共识的达成。

嗯……看来看去,我觉得是“数据可溯源”难度系数最大,尤其是要做到那种精细化的、链条式的溯源。你想啊,数据在AI训练、推理、应用过程中,是“流体”,各种预处理、合并、衍生、微调,甚至中间还可能经过人工标注或强化学习。每一步都要留下可追溯的“指纹”,还要保证这个指纹不会被篡改,而且在用户或监管方需要时能迅速查到源头。这简直是要为数据的每一个子句、每一个字节都建立一个“族谱”和“流水线监控系统”,听着就头大,工程量和技术挑战不容小觑啊!