机器学习在决策系统中的应用与挑战:聚焦公平性、鲁棒性与数据偏差

论文探讨机器学习在决策系统中的公平性、鲁棒性与数据偏差问题,提出相应的算法解决群体公平和鲁棒决策。

原文标题:【EPFL博士论文】决策系统中的机器学习:公平性、鲁棒性与数据偏差

原文作者:数据派THU

冷月清谈:

这篇EPFL博士论文探讨了机器学习在决策系统中面临的挑战,重点关注数据偏差、鲁棒性、公平性以及异构数据源等问题。论文分为三个部分:首先,研究了面向决策的训练方法,将最终决策结果纳入预测模型的优化目标。其次,着重关注预测系统对人类生活的影响,提出了在集中式和联邦学习环境下实现群体公平的算法,并简化了收敛速率和泛化误差界的构建。最后,提出了一种整合来自不同(可能存在偏差的)参考分布的信息以做出决策的方法,通过构建最优传输球并优化其交集,以在最坏情况下做出鲁棒决策。

怜星夜思:

1、论文中提到了数据偏差对机器学习决策的影响,在实际应用中,你认为有哪些常见的导致数据偏差的原因,又该如何缓解这些偏差?
2、论文提出了在联邦学习环境中实现群体公平性的方法。你认为在实际部署联邦学习系统时,除了技术挑战之外,还可能面临哪些伦理和法律方面的挑战?
3、论文提到了一种通过构建最优传输球来解决鲁棒决策问题的方法。你认为这种方法在哪些场景下会特别有效?又有哪些局限性?

原文内容

来源:专知
本文约1000字,建议阅读5分钟
在本论文中,我探讨了将机器学习与决策过程结合时所面临的各类挑战,重点关注数据偏差、鲁棒性、公平性、异构数据源以及面向决策的建模等问题。


随着自动系统发展,机器学习日益融入决策过程,诸如简历筛选、投资组合配置、贷款风险评估保险审批应用人类决策提供支持。论文中,探讨机器学习决策过程结合面临各类挑战,重点关注数据偏差、性、公平性、数据以及面向决策问题。每一中,不同角度研究这些问题,提出相应定制算法加以解决。

论文第一部分聚焦面向决策训练,预测模型训练过程中将最终决策结果纳入目标。研究表明,学习问题最优对应引导最优行为预测结果。

第二部分转向处理预测系统输出人类生活产生实际影响情形,特别公平性相关问题。关于公平性第一章研究集中环境群体公平(Group Fairness),提出一种包含梯度估计公平性正则项。方法简化速率误差建,群体公平重要现实应用提供一种扩展保障手段。

一个人类相关数据问题是,出于隐私考虑,这些数据通常无法集中传输服务器。第二章在此基础上,公平学习方法扩展联邦学习环境,其中不同客户持有数据不同部分。基于函数追踪机制,章节提出一种适用全局层面群体公平性正则项,可与现有多数联邦学习算法结合使用,计算通信开销方面要求低。

论文最后一部分再次回到决策问题,提出一种方法,用于目标领域整合来自不同(可能存在偏差的)参考分布信息做出决策。方法通过各个参考分布周围构造最优传输球(Optimal Transport Balls),交集进行化,从而使决策能够所有参考分布一致情况分布做出决策。

关键机器学习、化、面向决策学习、公平学习、分布


关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


最优传输球这个听起来就很高大上!感觉在那些数据分布不确定性很高,但是又对决策的鲁棒性要求很高的场景下会比较有用。比如金融风控,市场瞬息万变,数据分布经常变,用这种方法可能可以提高决策的稳定性。 局限性的话,我觉得可能是计算复杂度比较高,大规模数据可能不太好处理。

我觉得楼上说得很到位。我补充一点,联邦学习可能会加剧现有的不平等。比如,如果某些参与方的数据质量比较差,那他们的贡献可能就会被低估,导致他们在这个体系中处于劣势地位。另外,算法透明度也很重要,要确保参与方能够理解算法是如何工作的,以及他们的数据是如何被使用的。

同意楼上的看法。我觉得在医疗诊断领域也可能很有用。不同的医院或地区,患者的数据分布可能存在差异,用最优传输球可以提高诊断的准确性和鲁棒性。 但是,这种方法可能对数据质量要求比较高,如果参考分布本身就存在问题,那结果可能也会受到影响。另外,最优传输球的参数选择也很重要,需要根据具体问题进行调整。

数据偏差,嗯,这确实是个大问题。我理解常见的原因包括选择偏差(比如只选择了容易获取的数据)、测量偏差(比如测量工具本身存在误差),还有就是人群固有的偏差(例如,某些社会经济群体在数据中代表性不足)。缓解的话,个人觉得除了你说的那些,更重要的是在数据收集和预处理阶段就要有意识地规避,并且定期对模型进行公平性审计。

联邦学习的伦理和法律挑战可一点都不少!首先就是数据所有权的问题,数据到底是谁的?参与方的?算法提供方的?再就是用户隐私,虽然联邦学习号称保护隐私,但也不能保证绝对安全。还有就是算法责任,如果模型出了问题,谁来负责?算法开发者?数据提供者?这些都需要好好考虑。

联邦学习落地,privacy 必须是重中之重。GDPR、CCPA 这些法律法规都对数据隐私保护提出了很高的要求。我们需要考虑差分隐私、同态加密这些技术来加强隐私保护。另外,数据治理也很重要,要建立完善的数据管理制度,确保数据的使用符合伦理和法律规范。 我觉得还可以引入第三方审计,定期对联邦学习系统进行评估,确保其符合伦理和法律的要求。

谢邀,人在实验室,刚下飞机。 数据偏差确实会导致算法歧视特定群体,挺严重的。除了楼上说的那些宏观层面的原因,我觉得还有微观层面的算法偏差,比如算法设计者在coding的时候不小心引入了某种倾向性。 解决思路的话,我觉得可以参考因果推断,尝试理解偏差背后的因果关系,然后从根源上解决问题。另外,可解释性机器学习也很重要,至少要知道模型是怎么做的决策,才能更好地debug。

数据偏差的来源可太多了!采集方式、人群本身、历史遗留问题…想想看,如果训练数据主要来自某个特定地区或者特定人群,那模型可能就会对其他地区或人群产生偏差。缓解方法的话,我觉得首先要尽可能收集多样化的数据,然后可以试试重采样、数据增强这些技术,或者用一些专门的算法来检测和修正偏差。

从理论上讲,最优传输球提供了一种在不确定性下进行鲁棒决策的优雅方法。它的有效性高度依赖于参考分布的质量和数量。如果参考分布之间差异过大,或者参考分布本身就存在严重偏差,那么最优传输球的交集可能为空,或者非常小,导致决策过于保守。此外,最优传输的计算成本通常很高,尤其是在高维空间中。所以,在实际应用中,需要仔细权衡其带来的鲁棒性收益和计算成本。