ICLR 2026:PIL——基于线性代理的高效不可学习样本生成方法

ICLR 2026论文提出PIL方法,利用线性代理模型高效生成不可学习样本,保护数据隐私,显著降低计算成本并保持有效防护能力。

原文标题:ICLR 2026 | PIL:基于线性代理的不可学习样本生成方法

原文作者:机器之心

冷月清谈:

本文介绍了一种名为PIL(Perturbation-Induced Linearization)的不可学习样本生成方法。该方法通过线性模型作为代理,直接生成能够诱导深模型线性化的不可学习扰动,从而实现数据保护。与依赖深度神经网络的传统方法相比,PIL显著降低了计算成本,并在效率与防护效果之间取得了较好的平衡。实验结果表明,PIL在多种数据集和模型架构下均能有效降低模型的测试准确率,且对数据增强和JPEG压缩具有一定的鲁棒性。文章还深入探讨了部分扰动设置下性能退化受限的问题,并提出了梯度正交假设进行解释,为实际应用提供了有价值的指导。

怜星夜思:

1、文中提到PIL方法在部分扰动数据下,模型性能下降不明显,需要对数据集进行大比例甚至全部的扰动才能保证效果。那么在实际应用中,我们该如何平衡扰动比例和数据可用性之间的关系?有没有什么自适应的扰动策略?
2、PIL方法依赖于线性代理模型,那么这种线性代理模型是否会限制其应用场景?在面对非线性特征非常明显的数据集时,PIL方法还能有效吗?
3、文章中提到,PIL通过诱导模型线性化来实现不可学习性。那么,这种线性化是否会导致模型在正常任务上的性能下降?是否存在一种方法,既能实现数据保护,又能尽量减少对模型正常功能的损害?

原文内容


不可学习样本(Unlearnable Examples)是一类用于数据保护的技术,其核心思想是在原始数据中注入人类难以察觉的微小扰动,使得未经授权的第三方在使用这些数据训练模型时,模型的泛化性能显著下降,甚至接近随机猜测,从而达到阻止数据被滥用的目的。


例如,对于摄影师公开发布的作品或用户分享的个人照片,在添加扰动后,图像在视觉上几乎不发生变化;但若这些数据被用于训练图像分类模型,其测试准确率可能会从 90% 降至 10% 左右。


随着深度模型对大规模数据依赖程度的不断提升,不可学习样本逐渐成为数据隐私与模型安全领域的重要研究方向。然而,现有方法在实际应用中仍面临显著的效率瓶颈。



  • 论文链接: https://arxiv.org/abs/2601.19967

  • 代码已开源: https://github.com/jinlinll/pil


现有方法的效率瓶颈


当前主流的不可学习样本生成方法大多依赖深度神经网络(DNN)作为代理模型。其典型流程包括:

1. 训练一个复杂的深度模型(如 ResNet、VGG)作为代理;

2. 在代理模型上通过对抗攻击方法(如 PGD)迭代优化扰动;

3. 利用扰动在其他模型上的迁移性实现防护效果。


这种对深度模型的依赖带来了若干问题:

  • 计算开销高:生成一次扰动往往需要大量 GPU 资源。例如,REM 方法在 CIFAR-10 数据集上的扰动生成时间超过 15 GPU 小时;

  • 扩展性受限:当应用于高分辨率图像或大规模数据集(如 ImageNet)时,时间成本迅速上升;

  • 模型复杂度冗余:深模型的强非线性表达能力并非不可学习样本生成的必要条件,反而增加了优化难度。


核心观察:不可学习样本与模型线性化


我们关注到一个关键现象:不可学习样本的作用机制,本质上是诱导深模型退化为近似线性的行为模式。


我们评估了多种现有不可学习样本方法(包括 EM、REM、TAP、SP、AR 等),发现一个一致现象:无论方法设计多么复杂,最终均会诱导深度模型呈现更强的线性特征(通过 FGSM 的成功率度量)


表 1:不同 FGSM 攻击步长下不可学习样本导致的额外准确率下降百分比(扰动比例 50%)


从这一角度出发,如果最终目标是使深模型表现出线性特性,那么使用复杂的深度模型作为代理并非必要。相反,直接利用线性模型生成扰动,可能更直接地作用于这一核心机制。


基于此,我们提出 PIL(Perturbation-Induced Linearization): 通过线性模型作为代理,直接生成能够诱导深模型线性化的不可学习扰动。


PIL 方法概述


与基于对抗攻击的方案不同,PIL 通过一个双目标优化过程,引导模型学习线性映射。


1. 语义混淆(Semantic Obfuscation)


通过最小化 KL 散度,使线性代理模型在扰动后的样本上输出接近均匀分布,从而削弱原始图像中可用于分类的语义信息。


2. 捷径诱导(Shortcut Learning)


通过最小化交叉熵损失,使代理模型能够仅依据扰动准确预测标签,从而将判别信息嵌入进扰动中。


两个目标通过平衡参数 λ 进行联合优化,最终生成的扰动同时抑制语义学习并强化线性捷径,从而在深模型训练阶段诱导其产生显著的泛化退化。


图 1:PIL 方法示意图


PIL 的算法流程(简要)


1. 训练一个无偏置的线性分类器作为代理模型;

2. 在不可察觉约束(L∞≤8/255)下,采用类似 PGD 的方法优化扰动;

3. 将扰动注入原始图像,构造不可学习样本;


Algorithm 1:PIL 算法流程


实验结果


我们在 SVHN、CIFAR-10/100 和 ImageNet-100 数据集上,结合 ResNet、VGG、MobileNet 等多种模型进行了系统评估。


1. 有效性


在不同数据集和模型架构下,PIL 生成的不可学习样本均能显著降低模型的测试准确率,在部分设置中准确率接近随机水平。


表 2:在干净数据集(Dc)与 PIL 构建的不可学习数据集(Du)上训练的模型在干净数据上的测试准确率(%)对比


2. 计算效率


在 CIFAR-10 上,PIL 生成扰动仅需 40.53 秒,而 REM 方法需要超过 54k 秒,效率提升超过三个数量级。同时,PIL 在效率与防护效果之间取得了较好的平衡。


表 3:不同方法为 CIFAR-10 训练集构建全部扰动所需的时间对比


3. 鲁棒性


在多种数据增强策略(旋转、裁剪、MixUp)和不同 JPEG 压缩质量下,PIL 依然保持稳定的防护性能。


表 4:不同数据增强策略下,各类不可学习样本在 CIFAR-10 上的干净测试准确率(%)。结果越接近 10% 越好。灰色背景标示 Top-2 的两种方法。


表 5:在不同 JPEG 压缩质量下,各类不可学习样本在 CIFAR-10 上的干净测试准确率(%)。结果越接近 10% 越好。灰色背景标示 Top-2 的两种方法。


4. 线性化验证


我们使用 FGSM 攻击下的准确率下降幅度作为线性化指标。实验表明,随着 PIL 扰动比例增加,模型对 FGSM 的敏感性显著增强,验证了 PIL 确实诱导了模型的线性行为。


表 6:使用不同干净 / PIL 扰动数据混合比例训练的 ResNet-18 模型,在各 FGSM 攻击步长下的测试准确率及下降幅度(%)


进一步分析:

部分扰动设置下的性能退化受限


在实验中我们观察到一个一致现象:当仅有部分训练数据被扰动时,模型的测试准确率往往不会出现显著下降。这一现象并非 PIL 方法特有,而是现有不可学习样本方法普遍存在的特性。


为解释该现象,我们通过实验发现模型对被扰动样本产生的梯度与对干净样本的梯度呈现很强的正交性,于是我们提出在梯度正交假设,并在该假设下进行了理论分析,得到如下结论:


  • 干净样本与扰动样本在训练过程中所产生的梯度方向近似正交,因此扰动样本对应的梯度更新难以显著干扰模型对干净样本的学习;

  • 在混合训练设置下,模型的泛化性能主要由干净数据主导,只要干净样本数量足够,模型仍能学习到稳定且可泛化的特征表示。


图 2:在部分扰动场景下,CIFAR-10 数据集的干净测试准确率(%)


上述分析表明,部分扰动并不足以从根本上削弱模型的泛化能力。这一定性结论对于实际应用具有直接启示意义:若期望获得稳定且显著的防护效果,需要对数据集进行大比例甚至全部的扰动,或至少保证扰动样本在训练数据中占据足够高的比例(通常高于 80%)。


结语


PIL 的核心在于从机制层面重新审视不可学习样本问题,将关注点从复杂的代理模型与攻击策略,转向「模型线性化」这一关键因素。通过使用线性代理模型,PIL 在显著降低计算成本的同时,依然保持了稳定而有效的防护能力。


我们希望这一视角能够为不可学习样本及相关数据保护研究提供新的思路,并推动更加高效、可扩展的方法设计。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我更倾向于认为,线性代理模型的关键在于其线性特性,而非模型的复杂程度。更复杂的线性模型可能会带来过拟合的风险,反而不利于生成具有良好迁移性的扰动。当然,这只是我的猜测,需要实验验证。如果有人做了这方面的实验,欢迎分享数据和结论!

我觉得可以考虑主动学习的思想。先用少量扰动数据训练一个模型,然后选择那些模型预测置信度低的样本,对这些样本进行扰动。这样可以更有针对性地提高扰动样本的比例,从而增强防护效果。当然,具体的采样策略还需要根据实际情况进行调整。

我觉得可以考虑让模型学习到一些对抗性的shortcut。比如,让模型在特定模式的数据上,过度依赖某些容易被攻击的特征。这样,攻击者可以通过操纵这些shortcut特征,更容易地让模型犯错,从而达到类似不可学习样本的效果。

此外,还可以研究如何让模型在特定分布的数据上,陷入局部最优解。通过精心设计扰动,使得模型在这些数据上难以逃脱局部最优,从而降低模型的泛化能力。

与其直接寻找更复杂的代理模型,不如反过来思考:如何让线性模型生成更“狡猾”的扰动?

一个可能的方向是,在扰动生成过程中引入一些随机性。例如,可以使用生成对抗网络(GAN)来生成扰动,或者在扰动优化过程中引入一些噪声。

另一种思路是,可以尝试将线性模型与其他技术相结合。例如,可以使用线性模型来预测扰动的方向,然后使用一些非线性优化算法来精细调整扰动的大小。

总之,关键在于充分发挥线性模型的优势,并弥补其不足。

除了线性化,还可以考虑让模型学习到一些与标签无关的虚假相关性。例如,在数据集中引入一些与标签无关的纹理或噪声,并让模型学到这些纹理或噪声与标签之间的虚假关联。这样,即使模型在干净数据上表现良好,但在包含这些虚假相关性的数据上就会失效。

另一种思路是,可以尝试让模型学习到一些“反模式”。也就是说,让模型在特定数据上预测错误的标签,从而人为地制造错误。这种方法可能需要更精细的控制,以避免对干净数据的性能产生负面影响。

谢邀,从我多年调参的经验来看,我觉得可以试试“精调”的思路。简单来说,就是先用大量干净数据训练一个初始模型,保证模型的基本性能;然后,再用少量扰动数据进行精细调整,让模型对扰动具有一定的抵抗力,但又不至于完全丧失学习能力。

这个过程需要不断地调整扰动强度和训练参数,找到一个最佳的平衡点。可能需要用到一些自动化调参的工具,比如贝叶斯优化、强化学习等等。

另外,还可以考虑使用一些正则化的方法,例如dropout、weight decay等等,来提高模型的泛化能力和鲁棒性。

这确实是个很现实的问题,感觉像是给模型“下毒”一样,如何在保证模型能正常工作的情况下下毒是个技术活。
我觉得有两个方向可以考虑:

1. 对抗性训练:就像生成对抗网络(GAN)一样,我们可以训练一个“不可学习样本生成器”和一个“可学习模型”。生成器的目标是生成能够迷惑模型的不可学习样本,而模型的目标是在这些样本上也能保持一定的准确率。通过这种对抗性的训练,模型可以逐渐学会忽略那些恶意扰动,从而提高其鲁棒性和泛化能力。
2. 联邦学习:用户可以在本地设备上训练模型,然后将模型参数上传到服务器进行聚合。这样可以避免将原始数据上传到服务器,从而保护用户的隐私。同时,通过使用差分隐私等技术,可以进一步增强模型的安全性。

好问题!这涉及到数据保护和模型可用性之间的trade-off。PIL通过诱导模型线性化来实现不可学习性,必然会对模型的正常功能产生一定的影响。关键在于如何控制这种影响,使其在可接受的范围内。

我个人觉得可以尝试以下方法:

1. 选择性线性化: 并非所有数据都需要进行线性化处理。可以根据数据的敏感程度,选择性地对部分数据进行线性化,或者对不同数据采用不同程度的线性化。
2. 混合训练: 在训练模型时,同时使用原始数据和线性化后的数据。这样可以让模型学习到原始数据的特征,同时又对线性化后的数据具有一定的鲁棒性。
3. 知识蒸馏: 首先使用原始数据训练一个Teacher模型,然后使用线性化后的数据训练一个Student模型,并让Student模型学习Teacher模型的输出。这样可以使Student模型在保护数据隐私的同时,尽量保持与Teacher模型相似的性能。

这个问题很关键,线性模型的局限性是显而易见的。不过,我觉得可以从两个方面来看待这个问题:

1. 线性模型的优势: 线性模型简单、高效,易于分析和优化。PIL选择线性模型作为代理,很大程度上是为了降低计算成本,提高效率。毕竟,生成不可学习样本的目的是为了保护数据,而不是为了训练一个高精度的模型。
2. 非线性特征的处理: 即使面对非线性特征明显的数据集,PIL仍然可以通过扰动的方式,将非线性特征“隐藏”起来,或者将其转化为线性可分的特征。当然,这需要仔细调整扰动的参数,并进行大量的实验验证。

总而言之,PIL可能不是万能的,但它提供了一种新的思路,即通过简化模型,降低计算成本,同时保证一定的防护效果。在实际应用中,可以根据具体情况选择合适的代理模型,并结合其他技术手段,以达到最佳的保护效果。

线性代理模型确实可能限制PIL的应用场景,尤其是在处理高度非线性的数据时。但是,我觉得可以换个角度思考:也许我们可以利用一些数据预处理或者特征工程的方法,先将非线性数据转化为线性可分的数据,然后再使用PIL进行扰动。例如,可以使用核方法(kernel method)将数据映射到高维空间,使其线性可分。

另外,也可以考虑使用集成学习的思路,将多个线性代理模型组合起来,每个模型负责处理一部分数据特征。这样可以提高模型的表达能力,更好地适应非线性数据。

谢邀,利益相关,正在做类似的研究。这问题确实很关键。

我的想法是,可以结合主动学习的思路。首先用少量标记数据训练一个初始模型,然后用这个模型去预测未标记数据的置信度。对于置信度低的样本,说明模型不太确定,这些样本可能包含更多的信息,就可以优先对这些样本进行扰动。这样可以在保证数据可用性的前提下,最大限度地提高防护效果。

当然,具体的实现还需要考虑很多细节,比如如何定义置信度,如何选择扰动比例等等。这方面的研究还比较初步,欢迎大家一起探讨。

关于扰动比例和数据可用性的平衡,我的想法是:与其一刀切地对所有数据进行扰动,不如考虑采用一种“按需扰动”的策略。

比如,可以先对数据进行重要性评估,例如哪些数据更容易被模型学习并影响最终的预测结果。然后,只对那些“高风险”数据进行扰动,而对其他数据则保持原样。这样既能保护关键信息,又能最大限度地保留数据的可用性。

至于自适应扰动策略,可以考虑引入一个反馈机制。例如,监测模型在验证集上的性能,如果发现模型对扰动过的样本仍然学习得很好,就增加扰动强度;反之,则减小扰动强度。这样就可以动态地调整扰动策略,以达到最佳的保护效果。

问题提得很好!平衡扰动比例和数据可用性确实是个难题。我来提供几个思路:

1. 分层扰动: 对不同重要程度的数据采用不同程度的扰动。例如,核心数据全扰动,非核心数据低比例扰动,并且在核心数据扰动失效时,逐步提高非核心数据的扰动比例。
2. 对抗训练的思路: 可以考虑使用对抗训练,让模型学习对扰动的鲁棒性,同时在训练过程中动态调整扰动比例,找到一个平衡点。
3. 用户授权与差分隐私: 对于可以获得用户授权的数据,可以采用差分隐私的技术,在保证隐私的前提下,尽量减少对数据可用性的影响。