机器学习中的“被遗忘权”:Machine Unlearning 技术解读

Machine Unlearning技术如何在AI时代保障用户“被遗忘权”,兼顾数据安全与模型效率?

原文标题:Machine Unlearning 会是 Learning 的新机会吗?

原文作者:机器之心

冷月清谈:

随着AI的快速发展和LLM的广泛应用,全球各国政府对AI治理的关注日益增强,数据安全、隐私保护等成为监管重点。“被遗忘权”在多个国家和地区的立法中得到体现,要求企业能够在用户请求时删除其个人数据。在这一背景下,Machine Unlearning技术应运而生,它能够帮助企业在不重新训练整个模型的情况下,删除特定用户数据的影响,从而降低合规成本。

传统的机器学习模型训练完成后,如果需要删除某个用户的数据,通常需要重新训练整个模型,这将耗费大量的时间和资源。Machine Unlearning技术则提供了一种更高效的解决方案,它允许在不重新训练整个模型的情况下,消除特定用户数据对模型的影响。

除了隐私保护,Machine Unlearning技术还有助于分析不同数据对模型的贡献,从而提高模型的精准度和鲁棒性。例如,它可以用于检测噪声数据,并识别对模型性能有负面影响的数据点。

怜星夜思:

1、Machine Unlearning 技术除了在隐私保护方面,还有什么其他的应用场景?
2、Machine Unlearning 和传统的模型重新训练相比,有哪些优缺点?
3、未来 Machine Unlearning 技术的发展方向是什么?

原文内容

本文来自往期 PRO会员通讯精选解读,文末关注「机器之心PRO会员」,查看更多专题解读。
在人工智能疾速发展,LLM 应用开始被广泛应用的当下,全球各国政府对 AI 治理投入了越来越多的精力。在近期多国政府出台的 AI 治理法案中,政府对数据安全、伦理、隐私保护,以及 AI 技术与版权、用户权益等方面的约束条款愈发清晰。在此趋势下,可以用于保护用户隐私数据的 Machine Unlearning 技术也在引起越来越多的关注。

目录

01. 为什么需要关注 Unlearning?

Machine Unlearning 和监管政策有什么关系?Machine Unlearning 和 AI能力有什么关系?
02. 什么是 Machine Unlearning?
Machine Unlearning 有几种做法?Machine Unlearning 最初的用途是什么?

03. LLM 中的 Unlearning 有什么区别空间推理?

LLM 做 Unlearning会更难吗?LLM 公司能用 Unlearning 解决数据纠纷吗?Machine Unlearning 现在存在哪些局限?...

01  为什么需要关注 Unlearning?

1、在过去的十年中,数据量的大幅增加和硬件性能的快速提升推动了机器学习技术的快速发展。伴随近几年 LLM 模型的发展则进一步带来了对各类数据的需求和消耗。

2、伴随人工智能技术所需的数据量不断增加,许多国家最近立法实施「被遗忘的权利(Right to Forgotten)」。

① 」被遗忘的权利「中显著的例子是欧盟的通用数据保护条例(GDPR)、加拿大的个人信息保护与电子文件法(PIPEDA)隐私立法和美国的加州消费者隐私法案(CCPA)。

② 根据这些法律,公司必须采取合理措施保证在请求时删除个人数据。

③ 截至近期,联合国即将进入执行的《人工智能法案》和美国多个州政府最近的立法行动也对人工智能在用户隐私、版权等方面的提出规范。

4、在此趋势下,Machine Unlearning 技术受到越来越多的关注。

① 由于企业会利用用户数据训练模型。当用户行使「被遗忘的权利」,要求公司停止使用其数据,如果每次都要重新训练模型以响应用户的要求,将对企业造成巨大的开销和损失。

② 从技术层面看,Machine Unlearning 领域的研究不仅限于隐私保护,还包括分析不同数据对模型收敛时所贡献的梯度。这种分析有助于实现更精准的去学习,同时也能增强模型对噪声数据的检测能力(Noisy Data Detection)。


02  什么是 Machine Unlearning?
2024 年 5 月发布的综述《Machine Unlearning: A Comprehensive Survey》提供了对 Machine Unlearning 技术的全面概述。该工作采用 SLR 方法,通过设计搜索字符串、识别适当的数字数据库并定义数据提取策略,系统地回顾了现有 Machine Unlearning 方法,并讨论了在近期有关」被遗忘权利「立法对 Machine Unlearning 研究的影响......

 关注👇🏻「机器之心PRO会员」,前往「收件箱」订阅,查看完整解读内容 

更多往期专题解读内容,关注「机器之心PRO会员」服务号,点击菜单栏「收件箱」查看。

从安全角度考虑,Machine Unlearning 可以用来防止模型被恶意攻击。比如,攻击者可能会通过注入一些恶意数据来污染模型,Unlearning 可以帮助我们快速清除这些恶意数据的影响。

我觉得可能会和联邦学习结合起来,在保护用户隐私的同时,还能进行模型的协同训练,这应该是一个很有前景的方向。

最大的优点当然是效率高啊,不用全部重新训练,节省时间和资源。缺点嘛,可能效果不如重新训练那么彻底,毕竟只是部分调整。

我觉得在模型优化方面也挺有用的。可以用来剔除一些噪声数据或者对模型性能提升不大的数据,让模型更轻量级,训练更高效。

除了文中提到的噪声数据检测,我觉得还可以用于模型的个性化定制。比如,可以根据用户的反馈,去除一些用户不喜欢的特征,让模型更符合用户的个人偏好。

我猜想可能会更注重Unlearning的精准性和效率,如何在更短的时间内更精准地去除特定数据的影响,这应该是一个重要的研究方向。

我觉得Unlearning更像是一种权宜之计,治标不治本,想彻底解决隐私问题,还得靠更完善的数据安全体系和技术。

我比较关注Unlearning在不同类型数据上的应用,比如文本、图像、视频等,不同类型的数据可能需要不同的Unlearning策略。

优点是效率高、成本低,缺点是可能存在残留信息,隐私保护的彻底性不如重新训练。不过,随着技术的进步,这个问题应该会逐渐得到解决。