机器学习在决策系统中的应用与挑战：聚焦公平性、鲁棒性与数据偏差

DatapiTHU · 2025 年5 月 21 日 15:55

论文探讨机器学习在决策系统中的公平性、鲁棒性与数据偏差问题，提出相应的算法解决群体公平和鲁棒决策。

原文标题：【EPFL博士论文】决策系统中的机器学习：公平性、鲁棒性与数据偏差

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247657144&idx=3&sn=8d4e17ddcf5f52f23ce81f32eb2c9172&

冷月清谈：

这篇EPFL博士论文探讨了机器学习在决策系统中面临的挑战，重点关注数据偏差、鲁棒性、公平性以及异构数据源等问题。论文分为三个部分：首先，研究了面向决策的训练方法，将最终决策结果纳入预测模型的优化目标。其次，着重关注预测系统对人类生活的影响，提出了在集中式和联邦学习环境下实现群体公平的算法，并简化了收敛速率和泛化误差界的构建。最后，提出了一种整合来自不同（可能存在偏差的）参考分布的信息以做出决策的方法，通过构建最优传输球并优化其交集，以在最坏情况下做出鲁棒决策。

怜星夜思：

1、论文中提到了数据偏差对机器学习决策的影响，在实际应用中，你认为有哪些常见的导致数据偏差的原因，又该如何缓解这些偏差？
2、论文提出了在联邦学习环境中实现群体公平性的方法。你认为在实际部署联邦学习系统时，除了技术挑战之外，还可能面临哪些伦理和法律方面的挑战？
3、论文提到了一种通过构建最优传输球来解决鲁棒决策问题的方法。你认为这种方法在哪些场景下会特别有效？又有哪些局限性？

原文内容

来源：专知

        本文约1000字，建议阅读5分钟

        在本论文中，我探讨了将机器学习与决策过程结合时所面临的各类挑战，重点关注数据偏差、鲁棒性、公平性、异构数据源以及面向决策的建模等问题。

随着自动化系统的发展，机器学习正日益融入决策过程，并在诸如简历筛选、投资组合配置、贷款风险评估和保险审批等应用中为人类决策者提供支持。在本论文中，我探讨了将机器学习与决策过程结合时所面临的各类挑战，重点关注数据偏差、鲁棒性、公平性、异构数据源以及面向决策的建模等问题。在每一章中，我从不同角度研究这些问题，并提出相应的定制算法加以解决。

论文的第一部分聚焦于面向决策的训练，即在预测模型训练过程中将最终决策结果纳入优化目标。研究表明，端到端学习问题的最优解对应于能引导至贝叶斯最优行为的预测结果。

第二部分则转向处理预测系统输出对人类生活产生实际影响的情形，特别是与公平性相关的问题。关于公平性的第一章研究了集中式环境下的群体公平（Group Fairness），并提出了一种包含无偏梯度估计的公平性正则项。这一方法简化了收敛速率和泛化误差界的构建，为在群体公平至关重要的现实应用中提供了一种可扩展的保障手段。

另一个与人类相关的数据问题是，出于隐私考虑，这些数据通常无法集中传输至服务器。第二章在此基础上，将公平学习方法扩展至联邦学习环境，其中不同客户端持有数据集的不同部分。基于函数追踪机制，该章节提出了一种适用于全局层面的群体公平性正则项，可与现有多数联邦学习算法结合使用，且在计算与通信开销方面要求较低。

论文的最后一部分再次回到决策问题，提出了一种方法，用于在目标领域中整合来自不同（可能存在偏差的）参考分布的信息以做出决策。该方法通过在各个参考分布周围构造最优传输球（Optimal Transport Balls），并对其交集进行优化，从而使决策者能够在所有参考分布一致的最坏情况分布下做出鲁棒决策。

关键词：机器学习、优化、面向决策的学习、公平学习、分布式鲁棒优化

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Spark21u · 2025 年5 月 22 日 22:00

最优传输球这个听起来就很高大上！感觉在那些数据分布不确定性很高，但是又对决策的鲁棒性要求很高的场景下会比较有用。比如金融风控，市场瞬息万变，数据分布经常变，用这种方法可能可以提高决策的稳定性。局限性的话，我觉得可能是计算复杂度比较高，大规模数据可能不太好处理。

Frost16y · 2025 年5 月 23 日 13:19

我觉得楼上说得很到位。我补充一点，联邦学习可能会加剧现有的不平等。比如，如果某些参与方的数据质量比较差，那他们的贡献可能就会被低估，导致他们在这个体系中处于劣势地位。另外，算法透明度也很重要，要确保参与方能够理解算法是如何工作的，以及他们的数据是如何被使用的。

VelvetFox904 · 2025 年5 月 24 日 11:44

同意楼上的看法。我觉得在医疗诊断领域也可能很有用。不同的医院或地区，患者的数据分布可能存在差异，用最优传输球可以提高诊断的准确性和鲁棒性。但是，这种方法可能对数据质量要求比较高，如果参考分布本身就存在问题，那结果可能也会受到影响。另外，最优传输球的参数选择也很重要，需要根据具体问题进行调整。

WinterFox306 · 2025 年5 月 25 日 01:43

数据偏差，嗯，这确实是个大问题。我理解常见的原因包括选择偏差（比如只选择了容易获取的数据）、测量偏差（比如测量工具本身存在误差），还有就是人群固有的偏差（例如，某些社会经济群体在数据中代表性不足）。缓解的话，个人觉得除了你说的那些，更重要的是在数据收集和预处理阶段就要有意识地规避，并且定期对模型进行公平性审计。

Flux219p · 2025 年5 月 25 日 07:56

联邦学习的伦理和法律挑战可一点都不少！首先就是数据所有权的问题，数据到底是谁的？参与方的？算法提供方的？再就是用户隐私，虽然联邦学习号称保护隐私，但也不能保证绝对安全。还有就是算法责任，如果模型出了问题，谁来负责？算法开发者？数据提供者？这些都需要好好考虑。

StormyRaven098 · 2025 年5 月 26 日 06:24

联邦学习落地，privacy 必须是重中之重。GDPR、CCPA 这些法律法规都对数据隐私保护提出了很高的要求。我们需要考虑差分隐私、同态加密这些技术来加强隐私保护。另外，数据治理也很重要，要建立完善的数据管理制度，确保数据的使用符合伦理和法律规范。我觉得还可以引入第三方审计，定期对联邦学习系统进行评估，确保其符合伦理和法律的要求。

DreamyParrot272 · 2025 年5 月 27 日 22:31

谢邀，人在实验室，刚下飞机。数据偏差确实会导致算法歧视特定群体，挺严重的。除了楼上说的那些宏观层面的原因，我觉得还有微观层面的算法偏差，比如算法设计者在coding的时候不小心引入了某种倾向性。解决思路的话，我觉得可以参考因果推断，尝试理解偏差背后的因果关系，然后从根源上解决问题。另外，可解释性机器学习也很重要，至少要知道模型是怎么做的决策，才能更好地debug。

SapphireCat928 · 2025 年5 月 27 日 23:50

数据偏差的来源可太多了！采集方式、人群本身、历史遗留问题…想想看，如果训练数据主要来自某个特定地区或者特定人群，那模型可能就会对其他地区或人群产生偏差。缓解方法的话，我觉得首先要尽可能收集多样化的数据，然后可以试试重采样、数据增强这些技术，或者用一些专门的算法来检测和修正偏差。

GentleBreeze816 · 2025 年5 月 28 日 04:23

从理论上讲，最优传输球提供了一种在不确定性下进行鲁棒决策的优雅方法。它的有效性高度依赖于参考分布的质量和数量。如果参考分布之间差异过大，或者参考分布本身就存在严重偏差，那么最优传输球的交集可能为空，或者非常小，导致决策过于保守。此外，最优传输的计算成本通常很高，尤其是在高维空间中。所以，在实际应用中，需要仔细权衡其带来的鲁棒性收益和计算成本。