多目标深度学习:算法、理论、应用与未来展望

港科大等团队发布多目标深度学习综述,全面解析算法设计、理论分析、应用与未来,为多任务学习、强化学习、大语言模型等提供参考。

原文标题:深度学习的平衡之道:港科大、港城大等团队联合发布多目标优化最新综述

原文作者:机器之心

冷月清谈:

本文是对基于梯度的多目标深度学习的综述,由香港科技大学、香港城市大学等机构联合发布。文章全面解析了在多任务场景下如何高效平衡各目标任务,涵盖了多目标算法设计、理论分析、实际应用以及未来展望。文章将基于梯度的多目标优化方法分为三类:寻找单个Pareto最优解、寻找有限个Pareto最优解以及寻找无限个Pareto最优解,并分别介绍了损失平衡方法、梯度平衡方法、基于偏好向量的方法和无需偏好向量的方法等。同时,文章还从收敛性和泛化性两个角度总结了现有的MOO的理论分析。最后,文章探讨了多目标优化方法在计算机视觉、强化学习、神经架构搜索、推荐系统和大语言模型等领域的应用,并指出了理论泛化分析不足、计算开销与高效性问题等挑战。此外,文章还介绍了LibMTL和LibMOON两个开源的多目标深度学习算法库。

怜星夜思:

1、文章提到了多目标优化在大语言模型对齐中的应用,那么在实际应用中,如何量化和平衡像“安全性”、“有用性”、“幽默性”这些不同维度但又非常主观的目标?
2、文中提到了多目标优化在神经架构搜索(NAS)中的应用,能否进一步解释下,在NAS中,多目标优化是如何平衡模型准确性与资源消耗(如FLOPs、参数量、延迟)的?除了文中提到的,还有什么其他的优化方向?
3、文章提到“大语言模型的多维度价值对齐”,那么除了文章中提到的优化模型性能、安全伦理边界、文化适应性及能耗效率外,你认为大语言模型在发展过程中,还应该关注哪些目标或价值?

原文内容


本文作者来自香港科技大学、香港科技大学(广州)、香港城市大学以及UIUC等机构。其中,港科大在读博士生陈巍昱、港城大在读博士生张霄远和港科广在读博士生林百炅为共同第一作者;林熙博士目前担任港城大博士后研究员;UIUC赵晗助理教授、港城大张青富教授以及港科大郭天佑教授为共同通讯作者。赵晗博士的研究方向主要集中在机器学习理论和可信机器学习领域,涵盖算法公平,可解释性和多任务优化等多个方向,其研究成果曾获Google Research Award。张青富教授 (IEEE Fellow) 长期致力于多目标优化的研究,所提出MOEA/D方法至今已被引用近万次,成为多目标优化经典范式之一。郭天佑教授 (IEEE Fellow) 专注于机器学习中的优化问题研究,曾获AI 2000最具影响力学者荣誉提名,并担任IJCAI-2025程序主席。


近年来,深度学习技术在自动驾驶、计算机视觉、自然语言处理和强化学习等领域取得了突破性进展。然而,在现实场景中,传统单目标优化范式在应对多任务协同优化、资源约束以及安全性 - 公平性权衡等复杂需求时,逐渐暴露出其方法论的局限性。值得注意的是,在大语言模型(LLM)与生成式 AI 系统的多维度价值对齐(Multi-Dimensional Alignment)领域,如何协调模型性能、安全伦理边界、文化适应性及能耗效率等多元目标,已成为制约人工智能系统社会应用的关键挑战。多目标优化(Multi-Objective Optimization, MOO)作为一种协调多个潜在冲突目标的核心技术框架,正在成为破解复杂系统多重约束难题的关键方法。


近日,由香港科技大学、香港科技大学(广州)、香港城市大学以及 UIUC 等团队联合发布的基于梯度的多目标深度学习综述论文《Gradient-Based Multi-Objective Deep Learning: Algorithms, Theories, Applications, and Beyond》正式上线。这篇综述从多目标算法设计、理论分析到实际应用与未来展望,全方位解析了如何在多任务场景下高效平衡各目标任务,呈现了这一领域的全景。



  • 论文题目:Gradient-Based Multi-Objective Deep Learning: Algorithms, Theories, Applications, and Beyond
  • 论文链接:https://arxiv.org/pdf/2501.10945v2
  • 仓库链接:https://github.com/Baijiong-Lin/Awesome-Multi-Objective-Deep-Learning

背景


在深度学习中,我们常常需要同时优化多个目标:


  • 多任务学习:在许多实际问题中,我们常常需要同时优化多个任务,并在不同任务之间寻求平衡,以解决它们之间的潜在冲突(例如,在分子性质预测领域,我们通常需要对一个分子预测多种性质);

  • 大语言模型的多维度价值对齐在大语言模型的训练过程中,我们期望其生成的回复能够与人类多维度的价值偏好相匹配,涵盖有用性、安全性、幽默度等多个方面;

  • 资源约束、安全性、公平性等因素的权衡在许多工业场景中,除了性能指标外,安全、能耗、延迟等实际工程指标也是需要兼顾的重要目标。


多目标优化算法旨在寻找一系列 折中解(也称为 Pareto 最优解),在不同目标间达到平衡,从而满足应用场景中对协同优化的要求。



算法设计


基于梯度的多目标优化方法主要分为三类:寻找单个 Pareto 最优解的算法,寻找有限个 Pareto 最优解的算法以及寻找无限个 Pareto 最优解的算法。



寻找单个 Pareto 最优解


在多任务学习等场景中,通常只需找到一个平衡的解,以解决任务之间的冲突,使每个任务的性能都尽可能达到最优。为此,研究者们提出了多种方法,这些方法可进一步分为损失平衡方法和梯度平衡方法。


  • 损失平衡方法通过动态计算或学习目标权重,平衡不同任务的损失。例如,动态权重平均(DWA)通过每个目标的训练损失的下降速度更新权重;不确定性加权(UW)基于每个目标的不确定性动态优化目标权重;多目标元学习(MOML)通过验证集性能自适应调整目标权重。

  • 梯度平衡方法通过计算多个任务梯度的 最优平衡方向,使模型在更新参数时能够兼顾所有任务的优化需求。这类方法又可以细分为梯度加权方法和梯度操纵方法。例如,多梯度下降算法(MGDA)通过求解优化问题找到更新方向,使该方向上的梯度更新能够最大化地减少所有任务的损失函数;PCGrad 方法将每个任务的梯度投影到与其他任务梯度冲突最小化的方向上,从而有效解决任务间的梯度冲突。


一些有代表性的方法如下图所示:



寻找有限个 Pareto 最优解


在寻找有限个 Pareto 解集时,需要同时考虑两个关键因素:解的快速收敛性(确保解迅速逼近 Pareto 最优前沿)和解集的多样性(保证解在 Pareto 前沿上的均匀分布)。目前主要有两类方法:


  1. 基于偏好向量的方法利用偏好向量来指定特定的 Pareto 解。通过均匀分布的偏好向量,可以生成具有多样性的 Pareto 解集,覆盖 Pareto 前沿的不同区域。

  2. 无需偏好向量的方法通过优化 Pareto 解集的某个指标来提高解的多样性。例如,最大化超体积(Hypervolume),使解集在目标空间中覆盖更大的区域;或者最大化最小距离,确保解集中的解彼此远离,从而提升分布均匀性。由于该类方法无需指定偏好向量,因此具有更高的适应性和灵活性。


一些有代表性的方法如下图所示:



寻找无限个 Pareto 最优解 


为满足用户在任一偏好下都能获得合适解的需求,研究者设计了直接学习整个 Pareto 集的方法,主要包括:


  • 超网络利用专门的网络根据用户偏好生成目标网络的参数;

  • 偏好条件网络在原模型中增加偏好信息作为额外条件;

  • 模型组合通过组合多个基模型的参数(如 PaMaL、LORPMAN 等方法)实现对所有 Pareto 解的紧凑表达。


在训练过程中,这些方法通常采用随机采样用户偏好,利用端到端的梯度下降优化映射网络参数,同时结合标量化目标或超体积最大化等策略,确保映射网络能够覆盖整个解集并实现稳定收敛。



理论分析


我们从收敛性和泛化性两个角度总结了现有的 MOO 的理论分析:


  • 收敛性:针对确定性(全梯度)和随机梯度的情况,许多工作从 Pareto Stationary 角度出发,提供了收敛性证明。通过双采样、平滑移动平均以及近似求解子问题等策略,有效降低了随机梯度带来的偏差,加快了整体收敛速度,理论上可以达到单目标优化相近的收敛速率。



  • 泛化性:许多工作探讨了多目标深度学习模型的泛化能力,利用 Rademacher 复杂度等工具分析了标量化方法与梯度平衡方法在未见数据上的表现。


应用与挑战


基于梯度的多目标优化方法已在多个前沿应用中展现出巨大潜力,主要包括:


  • 计算机视觉(CV):应用于多任务密集预测(如语义分割、深度估计、表面法向预测),实现任务间的协同提升。

  • 强化学习(RL):在多目标强化学习中,同时优化奖励、多样性和安全性指标,使智能体在复杂环境下表现更均衡。

  • 神经架构搜索(NAS):兼顾模型准确性与资源消耗(如 FLOPs、参数量、延迟),寻找适合嵌入式设备的高效架构。

  • 推荐系统:除准确度外,整合新颖性、多样性、用户公平等指标,为个性化推荐提供优化支撑。

  • 大语言模型(LLM):(1)多任务微调:在预训练语言模型的基础上,针对多个下游任务同时微调,可以提高模型的效率和泛化能力;(2)多目标对齐:在训练阶段,通过多目标算法同时优化多个目标(如安全性、有用性、幽默性等),以使模型的输出更好地满足用户在不同方面的偏好。


尽管多目标优化方法已取得诸多进展,但仍面临一些亟待解决的问题:比如:理论泛化分析不足, 计算开销与高效性问题, 高维目标与偏好采样挑战, 分布式训练与协同优化以及大语言模型的多目标优化


多目标算法库


我们开源了多目标深度学习领域的两大的算法库:LibMTL 和 LibMOON。


  • LibMTL 是一个专为多任务学习设计的开源库,支持超过 20 种多任务算法。它在 GitHub 上已收获超过 2200 个 Star,并被机器学习顶刊《Journal of Machine Learning Research》(JMLR)接收。

    项目地址:https://github.com/median-research-group/LibMTL

  • LibMOON 是一个专注于多目标优化的开源框架,支持超过 20 种多目标算法,能够高效寻找多个 Pareto 最优解。其相关工作已被人工智能顶会 NeurIPS 2024 接收。

    项目地址:https://github.com/xzhang2523/libmoon


结语


本综述旨在为多目标深度学习领域提供一份全面的资源整合。我们系统地梳理了从算法设计、理论分析到实际应用的各个方面,并深入探讨了未来发展面临的挑战。无论您的研究重点是多任务学习、强化学习,还是大语言模型的训练与对齐,相信都能在本文中找到有价值的见解与启发。我们也认识到,当前的工作可能未能完整涵盖该领域的所有研究成果,如果你有任何建议或补充,欢迎访问我们的 GitHub 仓库,并提交 Issue 或 Pull Request,让我们携手推动这一领域的发展,共同进步!


© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

这个问题很有意思!量化主观目标确实是难点。我的理解是,可以尝试以下几个方向:

1. 用户反馈与奖励模型: 通过用户的显式反馈(点赞、评分、评论)或隐式反馈(点击、停留时间)来训练奖励模型,给不同维度的目标打分。例如,用户认为回复很有用但不够安全,模型可以学习到“有用性+1,安全性-1”的信号。

2. 专家标注与规则: 邀请安全专家、伦理专家等对LLM的输出进行评估和标注,构建高质量的训练数据集。同时,可以制定一些规则来约束模型的行为,例如禁止生成仇恨言论、敏感话题等。

3. 对抗训练: 引入对抗网络来评估LLM的安全性。对抗网络尝试生成能够突破安全防线的输入,LLM则需要学习如何防御这些攻击,从而提高整体的安全性。

总之,这是一个需要结合多种方法、不断迭代优化的过程。大家有什么其他的思路欢迎分享!

这让我想起之前看过的一个段子:有人问ChatGPT,怎么才能写出既幽默又深刻的段子?ChatGPT回答说:”把深刻的道理用幽默的方式讲出来。“

虽然是个玩笑,但也说明了一些道理。 不同维度的目标其实是有联系的,比如一个真正有用的回答,往往也更受欢迎(某种程度上也更符合’幽默性‘)。 所以,在量化这些目标时,可以考虑它们之间的相关性,设计一个综合的评价体系。
而且,我觉得’有用性‘是基础,’安全性‘是底线,’幽默性‘是加分项。 可以给不同的目标设置不同的优先级,在优化时有所侧重。

其实我觉得NAS有点像在玩乐高,只不过我们不是手动搭建,而是让机器自动搜索。 每个神经网络架构就像一个乐高模型,准确率就像模型的坚固程度,资源消耗就像乐高积木的数量。

多目标优化就像一个聪明的乐高设计师,它会不断尝试不同的积木组合方式,目标是搭建一个既坚固又省积木的模型。

除了文中提到的,还可以考虑模型的可维护性。 一个好的模型不仅要性能好,还要易于理解、修改和部署,就像一个设计良好的乐高模型,方便我们进行二次创作。

我觉得除了以上这些,还应该关注LLM的**“人格”**问题。 虽然LLM只是一个机器,但当它可以像人一样对话、写作、甚至创作时,我们 inevitably 会赋予它一些人格化的特征。

那么,我们希望LLM拥有什么样的人格? 是谦逊好学、诚实守信,还是幽默风趣、富有创造力? 这些问题的答案,将直接影响LLM的发展方向。

而且,当LLM越来越像人时,我们如何区分真人和机器? 这可能会引发一系列伦理和社会问题,需要我们提前思考和应对。

谢邀,针对这个问题的回答,我尝试从一个更学术的角度来探讨:

可以考虑使用效用函数(Utility Function) 的概念。在经济学和决策论中,效用函数用来表示个体对不同选择的偏好程度。我们可以为每个目标(例如安全性、有用性、幽默性)定义一个效用函数,将这些主观的评价转化为数值。

具体来说:

* 安全性效用函数: 可以基于模型输出的风险评估(例如有害信息的概率)来定义。高风险对应低效用,低风险对应高效用。
* 有用性效用函数: 可以基于模型解决用户问题的能力、信息量等指标来定义。
* 幽默性效用函数: 比较难定义,可以尝试用用户对回复的积极反馈(例如点赞、表情)来衡量,或者使用专门的幽默性检测模型。

然后,可以使用多目标优化算法来最大化整体的效用函数,从而在不同目标之间找到一个平衡点。

需要注意的是,效用函数的构建本身也带有主观性,需要根据具体的应用场景和目标进行调整。

我觉得LLM的发展需要关注以下几个关键目标:

1. 环境可持续性: 大模型的训练需要消耗大量的电力,产生碳排放。未来需要探索更节能的训练方法,例如模型压缩、知识蒸馏、联邦学习等。

2. 数据隐私保护: 大模型依赖于海量数据进行训练,如何保护用户数据的隐私和安全至关重要。可以研究差分隐私、安全多方计算等技术,在不泄露用户数据的前提下进行模型训练。

3. 可解释性和可靠性: LLM的决策过程往往不透明,容易产生偏见和错误。提高模型的可解释性和可靠性,可以帮助我们更好地理解模型的行为,减少潜在的风险。

4. 公平性和包容性: LLM需要对不同种族、性别、文化背景的用户保持公平和包容,避免歧视和偏见。

5. 可控性和对齐: 确保LLM的行为符合人类的价值观和伦理规范,避免被用于恶意目的。可以使用强化学习、对抗训练等方法来对齐模型的行为和目标。

从学术的角度补充两点:

1. 超体积指标 (Hypervolume Indicator):这是一个常用于评估多目标优化算法性能的指标。在NAS中,我们可以使用超体积指标来衡量搜索到的架构集合的质量。超体积越大,说明架构集合在目标空间中覆盖的范围越广,即在准确性和资源消耗之间有更多的折衷选择。

2. Pareto 前沿可视化:将搜索到的架构在准确率-资源消耗的二维空间中进行可视化,可以帮助研究者更好地理解不同架构之间的trade-off关系。通过观察Pareto前沿的形状,可以判断算法的搜索能力,以及是否存在明显的性能瓶颈。

此外,还可以将多目标优化与迁移学习相结合。例如,先在一个大型数据集上搜索一个通用的架构,然后在目标数据集上进行微调。这样可以加速NAS的过程,并提高模型的泛化能力。

我从一个更偏向社会影响的角度来谈谈这个问题:

* 数字鸿沟的弥合: 确保所有人,无论其社会经济地位、教育水平如何,都能平等地访问和使用LLM所提供的服务。这意味着需要开发更易于使用、更贴近用户需求的LLM应用,并提供相应的培训和支持。
* 信息素养的提升: 随着LLM生成内容能力的增强,虚假信息和恶意内容也更容易传播。因此,需要加强公众的信息素养教育,提高辨别真伪信息的能力。
* 就业结构的调整: LLM的普及可能会替代一部分工作岗位,但也可能创造新的就业机会。需要关注就业结构的调整,为受影响的劳动者提供培训和转岗支持。
* 知识产权的保护: LLM生成的内容可能涉及版权问题。需要探索新的知识产权保护机制,平衡创新与版权之间的关系。

总之,LLM的发展不仅仅是技术问题,更是一个社会问题。需要全社会共同努力,才能确保LLM朝着积极、健康的方向发展。

这个问题问到了NAS的关键!我的理解是这样的:

在NAS中,我们可以把模型架构的选择看作是一个优化问题。传统NAS通常只关注模型在验证集上的准确率,但实际上,我们还需要考虑模型的计算成本、能耗等因素。

多目标优化就可以同时优化这些目标。例如,我们可以定义两个目标函数:一个是准确率,一个是FLOPs(浮点运算次数)。然后,使用多目标优化算法(如NSGA-II、MOEA/D等)来搜索Pareto最优的架构集合。这些架构在保证一定准确率的前提下,具有尽可能低的FLOPs。

具体来说,NAS会生成很多不同的神经网络架构,然后评估这些架构在准确率和FLOPs上的表现。多目标优化算法会根据这些表现,不断进化架构种群,最终找到一组在准确率和FLOPs之间取得平衡的优秀架构。

除了准确率和资源消耗,还可以考虑以下优化方向:

* 模型的鲁棒性: 针对对抗攻击、噪声数据等的抵抗能力。
* 模型的泛化能力: 在不同数据集、不同任务上的表现。
* 模型的可解释性: 模型决策过程的可理解程度。