论文探讨机器学习在决策系统中的公平性、鲁棒性与数据偏差问题,提出相应的算法解决群体公平和鲁棒决策。
原文标题:【EPFL博士论文】决策系统中的机器学习:公平性、鲁棒性与数据偏差
原文作者:数据派THU
冷月清谈:
怜星夜思:
2、论文提出了在联邦学习环境中实现群体公平性的方法。你认为在实际部署联邦学习系统时,除了技术挑战之外,还可能面临哪些伦理和法律方面的挑战?
3、论文提到了一种通过构建最优传输球来解决鲁棒决策问题的方法。你认为这种方法在哪些场景下会特别有效?又有哪些局限性?
原文内容
来源:专知本文约1000字,建议阅读5分钟在本论文中,我探讨了将机器学习与决策过程结合时所面临的各类挑战,重点关注数据偏差、鲁棒性、公平性、异构数据源以及面向决策的建模等问题。
随着自动化系统的发展,机器学习正日益融入决策过程,并在诸如简历筛选、投资组合配置、贷款风险评估和保险审批等应用中为人类决策者提供支持。在本论文中,我探讨了将机器学习与决策过程结合时所面临的各类挑战,重点关注数据偏差、鲁棒性、公平性、异构数据源以及面向决策的建模等问题。在每一章中,我从不同角度研究这些问题,并提出相应的定制算法加以解决。
论文的第一部分聚焦于面向决策的训练,即在预测模型训练过程中将最终决策结果纳入优化目标。研究表明,端到端学习问题的最优解对应于能引导至贝叶斯最优行为的预测结果。
第二部分则转向处理预测系统输出对人类生活产生实际影响的情形,特别是与公平性相关的问题。关于公平性的第一章研究了集中式环境下的群体公平(Group Fairness),并提出了一种包含无偏梯度估计的公平性正则项。这一方法简化了收敛速率和泛化误差界的构建,为在群体公平至关重要的现实应用中提供了一种可扩展的保障手段。
另一个与人类相关的数据问题是,出于隐私考虑,这些数据通常无法集中传输至服务器。第二章在此基础上,将公平学习方法扩展至联邦学习环境,其中不同客户端持有数据集的不同部分。基于函数追踪机制,该章节提出了一种适用于全局层面的群体公平性正则项,可与现有多数联邦学习算法结合使用,且在计算与通信开销方面要求较低。
论文的最后一部分再次回到决策问题,提出了一种方法,用于在目标领域中整合来自不同(可能存在偏差的)参考分布的信息以做出决策。该方法通过在各个参考分布周围构造最优传输球(Optimal Transport Balls),并对其交集进行优化,从而使决策者能够在所有参考分布一致的最坏情况分布下做出鲁棒决策。
关键词:机器学习、优化、面向决策的学习、公平学习、分布式鲁棒优化





