LLM 的个性化之路:PREFEVAL 基准测试揭示偏好遵循能力的挑战

PREFEVAL 基准测试揭示,LLM 在长对话中遵循用户偏好的能力存在显著挑战,即使是高级提示和检索增强也难以克服。

原文标题:【ICLR2025】LLMS能否识别您的偏好?评估LLMS中的个性化偏好遵循能力

原文作者:数据派THU

冷月清谈:

大型语言模型 (LLM) 虽然在聊天机器人领域应用广泛,但其根据用户偏好个性化响应的能力仍待提高。PREFEVAL 基准测试的出现,旨在评估 LLM 在长上下文对话中推断、记忆和遵循用户偏好的能力。该基准测试包含 3000 对用户偏好和查询,涵盖 20 个主题,并以显式和隐式两种形式包含用户偏好信息。通过生成和分类任务,PREFEVAL 评估了 10 个开源和商业 LLM 在不同长度(最长 100k tokens)多轮对话中的偏好遵循能力。结果显示,即使是最先进的 LLM,在主动遵循用户偏好的对话中也面临挑战,特别是在零样本设置下,准确率会随着对话轮数的增加而显著下降。即使采用高级提示和检索增强生成,偏好遵循能力在长上下文对话中仍然会下降。不过,在 PREFEVAL 上进行微调可以显著提高 LLM 的性能。

怜星夜思:

1、PREFEVAL 基准测试主要关注 LLM 在长上下文对话中的表现,那么在短对话或单轮问答中,LLM 遵循用户偏好的能力如何呢?
2、除了文中提到的提示方法、迭代反馈和检索增强生成,还有哪些方法可以提高 LLM 遵循用户偏好的能力?
3、文章提到在 PREFEVAL 上微调可以提高 LLM 的性能,这种提升是全局性的还是仅限于 PREFEVAL 数据集?如何评估这种提升的泛化能力?

原文内容

来源:专知

本文约1000字,建议阅读5分钟

我们提出了PREFEVAL,这是一个用于评估LLMs在长上下文对话环境中推断、记忆和遵循用户偏好能力的基准。


大语言模型(LLMs)越来越多地被用作聊天机器人,但其在根据用户偏好个性化响应方面的能力仍然有限。我们提出了PREFEVAL,这是一个用于评估LLMs在长上下文对话环境中推断、记忆和遵循用户偏好能力的基准。PREFEVAL包含3,000对人工整理的用户偏好和查询对,涵盖20个主题。PREFEVAL以显式和隐式形式包含用户个性化或偏好信息,并通过生成任务和分类任务评估LLM的表现。
利用PREFEVAL,我们在多轮对话中评估了10个开源和专有LLMs的上述偏好遵循能力,上下文长度从短到长(最高达100k标记)。我们通过多种提示方法、迭代反馈和检索增强生成方法进行了基准测试。我们的基准测试表明,最先进的LLMs在主动遵循用户偏好的对话中面临显著挑战。特别是在零样本设置中,大多数评估模型的偏好遵循准确率在仅10轮对话(约3k标记)后降至10%以下。即使使用高级提示和检索方法,偏好遵循能力在长上下文对话中仍然会下降。
此外,我们展示了在PREFEVAL上进行微调可以显著提高性能。我们相信,PREFEVAL将成为衡量、理解和增强LLMs偏好遵循能力的重要资源,为个性化对话代理的发展铺平道路。我们的代码和数据集可在https://prefeval.github.io/获取。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


对于“文章提到在 PREFEVAL 上微调可以提高 LLM 的性能,这种提升是全局性的还是仅限于 PREFEVAL 数据集?如何评估这种提升的泛化能力?”,一般来说,在特定数据集上微调的模型,其性能提升主要体现在该数据集上。要评估泛化能力,需要在其他未用于微调的数据集上进行测试。此外,还可以分析模型学习到的特征,看看这些特征是否具有普适性。

引用“PREFEVAL 基准测试主要关注 LLM 在长上下文对话中的表现,那么在短对话或单轮问答中,LLM 遵循用户偏好的能力如何呢?”这个问题,我觉得在短对话中,LLM 的表现应该会更好一些,毕竟需要记忆和处理的信息更少,出错的概率自然会降低。但单轮问答就不好说了,如果用户的偏好比较复杂或者隐晦,LLM 可能很难捕捉到。

针对“除了文中提到的提示方法、迭代反馈和检索增强生成,还有哪些方法可以提高 LLM 遵循用户偏好的能力?”这个问题,我想到的是强化学习,通过设计合适的奖励机制,让 LLM 在与用户交互的过程中不断学习和改进,从而更好地理解和遵循用户的偏好。另外,还可以结合一些外部知识库,帮助 LLM 更全面地理解用户的需求和偏好。

关于“除了文中提到的提示方法、迭代反馈和检索增强生成,还有哪些方法可以提高 LLM 遵循用户偏好的能力?”,我觉得可以尝试元学习,让模型学会学习,快速适应不同用户的偏好。还可以考虑结合用户画像,利用用户的历史行为数据,更精准地预测用户的偏好。

对于“除了文中提到的提示方法、迭代反馈和检索增强生成,还有哪些方法可以提高 LLM 遵循用户偏好的能力?”,我认为可以从模型结构上进行改进,设计更适合处理用户偏好的模型架构。例如,可以引入注意力机制,让模型更关注用户偏好相关的部分。还可以尝试多模态学习,结合文本、图像、语音等多种信息,更全面地理解用户的偏好。

关于“文章提到在 PREFEVAL 上微调可以提高 LLM 的性能,这种提升是全局性的还是仅限于 PREFEVAL 数据集?如何评估这种提升的泛化能力?”,我认为这种提升很可能主要体现在 PREFEVAL 数据集上,也就是说是特定于数据集的。为了评估泛化能力,可以将微调后的模型应用于其他类似的数据集或实际场景中,看看它的表现如何。还可以构建一些对抗样本,测试模型的鲁棒性。

对于“PREFEVAL 基准测试主要关注 LLM 在长上下文对话中的表现,那么在短对话或单轮问答中,LLM 遵循用户偏好的能力如何呢?”这个问题,我觉得短对话或单轮问答的场景下,LLM 的偏好遵循能力应该会有所提升。因为上下文信息量较少,LLM 的“记忆负担”会减轻,更容易集中注意力理解和回应用户的当前偏好。不过,这并不意味着 LLM 在短对话中就能完美遵循用户偏好,如果用户的偏好表达不够清晰明确,或者 LLM 的理解能力不足,仍然可能出现偏差。

引用一下“文章提到在 PREFEVAL 上微调可以提高 LLM 的性能,这种提升是全局性的还是仅限于 PREFEVAL 数据集?如何评估这种提升的泛化能力?”,微调的效果通常局限于训练数据,泛化能力有待考量。除了测试其他数据集,还可以尝试跨领域的测试,看看模型在不同领域的任务上的表现如何。

关于“PREFEVAL 基准测试主要关注 LLM 在长上下文对话中的表现,那么在短对话或单轮问答中,LLM 遵循用户偏好的能力如何呢?”这个问题,我认为短对话和单轮问答对 LLM 来说更容易一些。因为上下文信息少,LLM 不需要记住太多的东西,可以更专注于理解当前的输入并根据用户的偏好进行回复。当然,这也要看用户偏好的复杂程度,如果用户的偏好表达得非常清晰,那么即使在单轮问答中,LLM 也能很好地遵循;反之,如果用户的偏好很模糊,LLM 就可能难以理解,即使在短对话中也可能无法准确地捕捉到。