提升差分隐私在深度学习中的应用效率与性能

本文提出更高效的差分隐私深度学习训练技术,旨在提升隐私保护与任务性能之间的平衡。

原文标题:【斯坦福博士论文】有效的差分隐私深度学习

原文作者:数据派THU

冷月清谈:

本文探讨了一种新颖的差分隐私深度学习训练技术,旨在提高训练效率和任务性能。在深度学习模型中,使用敏感数据时可能导致隐私泄露,因此差分隐私(DP)作为一种保护用户隐私的机制变得愈发重要。尽管现有的差分隐私训练方法计算复杂且会降低模型性能,本文提出的改进技术在内存使用和计算效率上有所优化,使得差分隐私模型的应用变得更加实际。特别是,论文展示了当DP随机梯度下降(DP-SGD)适当应用于预训练模型时,可以在隐私和实用性之间实现更好的平衡。另外,本文还提供了对理论基础的进一步分析。由于机器学习对用户数据的依赖,本文中的技术在数据隐私保护方面显得尤为重要,尤其是在医疗等敏感领域。通过减少隐私风险和优化计算效率,这些技术有望推动差分隐私在深度学习中的广泛应用,并改善公众对机器学习应用的信任。

怜星夜思:

1、差分隐私如何改变我们处理数据的方式?
2、在实际应用中,差分隐私可能遇到哪些挑战?
3、未来,差分隐私在科技公司中的应用会怎样演变?

原文内容

图片
来源:专知

本文约2000字绍,建议阅读5分钟

本论文提出了更高效和性能更好的差分隐私深度学习训练技术


深度学习模型在训练过程中使用了敏感数据,当这些模型被部署时,可能会泄露隐私。例如,使用标准算法训练的语言模型可能会重复训练数据并揭示数据贡献者的成员信息。差分隐私(Differential Privacy, DP)是一种正式的保证,可以证明其限制隐私泄露,并已成为隐私保护统计数据分析的黄金标准。然而,大多数使用DP训练深度学习模型的方法计算强度高,并且会显著降低模型的任务性能。本文提出了用于深度学习的改进差分隐私技术,这些技术更加高效且具有更好的性能。这些技术在工业界受到越来越多的关注,并已在主要科技公司的差分隐私机器学习部署中使用,保护用户隐私并提供可观的计算节省。

我们表明,当差分隐私随机梯度下降(DP-SGD)适当地应用于微调质量和规模不断提升的预训练模型时,会产生一致更好的隐私-效用折衷。与标准训练算法相比,DP-SGD占用更多内存且速度较慢。我们对DP-SGD进行了算法和实现上的修改,使其在Transformer模型上的效率与标准训练一样高。我们的实证研究挑战了普遍认为DP-SGD在优化高维目标时表现不佳的观点。为了理解和解释我们的实证结果,我们还提出了新的理论分析,基于类似大规模微调的玩具模型,显示DP-SGD对于一类无约束凸优化问题具有与维度无关的界限。

随着用户数据越来越多地被视为训练预测模型的潜在来源,机器学习中的隐私问题引起了广泛关注。针对机器学习流程的隐私攻击表明,没有正式保证的训练模型可能会泄露成员信息并重现训练数据(Shokri et al., 2017;Carlini et al., 2021)。这些漏洞不仅仅是学术兴趣,它们已经导致了社会危害,并增加了公众对机器学习应用的信任危机。例如,韩国一家公司开发的聊天机器人使用了(私有的)用户数据,重复了诸如昵称和家庭地址等敏感信息,导致了一场公关危机(Jang, 2021)。此外,隐私问题阻碍了在医疗保健等专业领域的数据驱动系统的发展,在这些领域,大量优质数据是敏感的。这些问题挑战了随着立法和政策收紧,机器学习和AI的社会效益能否得到充分实现。
https://searchworks.stanford.edu/view/in00000107638
差分隐私(Differential Privacy, DP)(Dwork et al., 2014)是一种正式的隐私定义,已成为私有数据统计分析的黄金标准。差分隐私算法在成员推断(Yeom et al., 2018;Wasserman & Zhou, 2010)和数据重建攻击(Guo et al., 2022;Hayes et al., 2023)方面被证明具有抵抗力。因此,这些算法已被用于诸如2020年美国人口普查(US Census, 2020)等高风险场景以保护用户隐私。与差分隐私在私有统计数据分析中的日益普及相比,该隐私框架在深度学习应用中的行业采用率有限。例如,尽管从2015年至2021年间有成千上万的论文发表在差分隐私深度学习主题上,Gmail智能回复(Miraglia, 2019)是该范式的唯一主要行业应用之一。滞后的原因之一是,大多数带有差分隐私保证的深度学习模型训练方法计算强度高,或在数据不丰富的情况下会显著降低模型的任务性能。
本论文提出了更高效和性能更好的差分隐私深度学习训练技术。这些改进已经在行业中得到了应用,使得差分隐私深度学习比以往任何时候都更具吸引力。例如,本文提出的一些思想已用于微软差分隐私机器学习的首次部署(Yue et al., 2023;Yu et al., 2023)。
本论文的其余部分从第二章开始,介绍了机器学习中的隐私风险和常用的差分隐私训练算法。第三章提出了一种消除差分隐私训练内存开销的技术以及改进隐私-效用折衷的方法。第四章介绍了通过扩展上一章的思想进一步消除内存-计算折衷的技术。第五章提供了我们实证观察的理论解释。我们在第1.1节中总结了这些贡献。
本论文大部分工作是在辅助公共数据的私有学习环境中进行的。然而,值得注意的是,本文提出的某些思想可以更广泛地应用。例如,第二章讨论的高性能差分隐私方法可以用于在模型训练中保护版权材料的版权(Henderson et al., 2023)。第三章讨论了有效噪声的批量大小调整,这可以应用于改进私有预训练的任务性能。最后,我们注意到,机器学习中的隐私问题是广泛而复杂的。虽然差分隐私提供了一种稳健且特定形式的保护,但不应被视为解决所有隐私问题的万能方案。例如,差分隐私无法解决数据收集过程中发生的各种隐私损害(Solove, 2005)。此外,为了使差分隐私算法在限制参与推断方面有效,需要理解应用的背景以及私有数据的生成过程(Kifer & Machanavajjhala, 2011),以便在适当的粒度上应用差分隐私保证。第六章讨论了这些考虑因素。




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


可以预见,随着公众对隐私保护的关注度提升,越来越多的科技公司将会采用差分隐私技术。同时,我们也可能会看到行业标准的逐渐形成,让差分隐私能在更大范围内得到应用。

没错,尤其是在金融和医疗这样的高风险领域,对数据隐私保护的需求明确,差分隐私的普及能够提升用户的安全感。未来可能会有更多相关产品的出现!

我觉得,未来差分隐私技术会与AI等技术深度结合,更智能化的隐私保护方案也将问世,形成一个庞大且规范的隐私经济体系,简直太期待了!

差分隐私的引入,让我们在收集和使用数据时,更加注重保护个人信息。尤其是公众在面对数据使用时,会更倾向于支持那些能够提供隐私保护的服务。

确实如此,差分隐私不仅是一种技术,它还影响了用户的信任感,企业可能因此需要重新审视与用户数据的关系,甚至改变其商业模式。

是一种转变,也是行业的进步。不再是盲目收集数据,而是要考虑如何在保留数据价值的同时,保证用户隐私,听起来像是未来发展的必由之路。

很大一部分在于技术的复杂性,尤其是在调整差分隐私算法的参数时,可能需要投入大量人力和时间。另外,数据质量的影响也无法忽视,差分隐私保护可能导致数据变得不完整。

还有一方面,就是在法律法规不断更新的背景下,如何保证差分隐私的实现能符合各国的相关法规也是企业需要考虑的重要因素,毕竟不同地区对隐私的认知和保护标准不一样。

此外,用户的接受度也是挑战之一,很多用户可能对这种保护措施并不了解,进一步的教育和透明度可能会是解决这一问题的关键。