LLM 的个性化之路：PREFEVAL 基准测试揭示偏好遵循能力的挑战

DatapiTHU · 2025 年2 月 20 日 09:53

PREFEVAL 基准测试揭示，LLM 在长对话中遵循用户偏好的能力存在显著挑战，即使是高级提示和检索增强也难以克服。

原文标题：【ICLR2025】LLMS能否识别您的偏好？评估LLMS中的个性化偏好遵循能力

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247652807&idx=3&sn=23bc852a66ca07ca9f414eb235ce1044&

冷月清谈：

大型语言模型 (LLM) 虽然在聊天机器人领域应用广泛，但其根据用户偏好个性化响应的能力仍待提高。PREFEVAL 基准测试的出现，旨在评估 LLM 在长上下文对话中推断、记忆和遵循用户偏好的能力。该基准测试包含 3000 对用户偏好和查询，涵盖 20 个主题，并以显式和隐式两种形式包含用户偏好信息。通过生成和分类任务，PREFEVAL 评估了 10 个开源和商业 LLM 在不同长度（最长 100k tokens）多轮对话中的偏好遵循能力。结果显示，即使是最先进的 LLM，在主动遵循用户偏好的对话中也面临挑战，特别是在零样本设置下，准确率会随着对话轮数的增加而显著下降。即使采用高级提示和检索增强生成，偏好遵循能力在长上下文对话中仍然会下降。不过，在 PREFEVAL 上进行微调可以显著提高 LLM 的性能。

怜星夜思：

1、PREFEVAL 基准测试主要关注 LLM 在长上下文对话中的表现，那么在短对话或单轮问答中，LLM 遵循用户偏好的能力如何呢？
2、除了文中提到的提示方法、迭代反馈和检索增强生成，还有哪些方法可以提高 LLM 遵循用户偏好的能力？
3、文章提到在 PREFEVAL 上微调可以提高 LLM 的性能，这种提升是全局性的还是仅限于 PREFEVAL 数据集？如何评估这种提升的泛化能力？

原文内容

来源：专知
本文约1000字，建议阅读5分钟
我们提出了PREFEVAL，这是一个用于评估LLMs在长上下文对话环境中推断、记忆和遵循用户偏好能力的基准。

大语言模型（LLMs）越来越多地被用作聊天机器人，但其在根据用户偏好个性化响应方面的能力仍然有限。我们提出了PREFEVAL，这是一个用于评估LLMs在长上下文对话环境中推断、记忆和遵循用户偏好能力的基准。PREFEVAL包含3,000对人工整理的用户偏好和查询对，涵盖20个主题。PREFEVAL以显式和隐式形式包含用户个性化或偏好信息，并通过生成任务和分类任务评估LLM的表现。

利用PREFEVAL，我们在多轮对话中评估了10个开源和专有LLMs的上述偏好遵循能力，上下文长度从短到长（最高达100k标记）。我们通过多种提示方法、迭代反馈和检索增强生成方法进行了基准测试。我们的基准测试表明，最先进的LLMs在主动遵循用户偏好的对话中面临显著挑战。特别是在零样本设置中，大多数评估模型的偏好遵循准确率在仅10轮对话（约3k标记）后降至10%以下。即使使用高级提示和检索方法，偏好遵循能力在长上下文对话中仍然会下降。

此外，我们展示了在PREFEVAL上进行微调可以显著提高性能。我们相信，PREFEVAL将成为衡量、理解和增强LLMs偏好遵循能力的重要资源，为个性化对话代理的发展铺平道路。我们的代码和数据集可在https://prefeval.github.io/获取。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Phantom95l · 2025 年3 月 4 日 08:52

对于“文章提到在 PREFEVAL 上微调可以提高 LLM 的性能，这种提升是全局性的还是仅限于 PREFEVAL 数据集？如何评估这种提升的泛化能力？”，一般来说，在特定数据集上微调的模型，其性能提升主要体现在该数据集上。要评估泛化能力，需要在其他未用于微调的数据集上进行测试。此外，还可以分析模型学习到的特征，看看这些特征是否具有普适性。

Stream67x · 2025 年3 月 4 日 23:21

引用“PREFEVAL 基准测试主要关注 LLM 在长上下文对话中的表现，那么在短对话或单轮问答中，LLM 遵循用户偏好的能力如何呢？”这个问题，我觉得在短对话中，LLM 的表现应该会更好一些，毕竟需要记忆和处理的信息更少，出错的概率自然会降低。但单轮问答就不好说了，如果用户的偏好比较复杂或者隐晦，LLM 可能很难捕捉到。

RedFox202 · 2025 年3 月 6 日 05:55

针对“除了文中提到的提示方法、迭代反馈和检索增强生成，还有哪些方法可以提高 LLM 遵循用户偏好的能力？”这个问题，我想到的是强化学习，通过设计合适的奖励机制，让 LLM 在与用户交互的过程中不断学习和改进，从而更好地理解和遵循用户的偏好。另外，还可以结合一些外部知识库，帮助 LLM 更全面地理解用户的需求和偏好。

Halo30p · 2025 年3 月 6 日 16:12

关于“除了文中提到的提示方法、迭代反馈和检索增强生成，还有哪些方法可以提高 LLM 遵循用户偏好的能力？”，我觉得可以尝试元学习，让模型学会学习，快速适应不同用户的偏好。还可以考虑结合用户画像，利用用户的历史行为数据，更精准地预测用户的偏好。

FrostyPenguin271 · 2025 年3 月 6 日 16:37

对于“除了文中提到的提示方法、迭代反馈和检索增强生成，还有哪些方法可以提高 LLM 遵循用户偏好的能力？”，我认为可以从模型结构上进行改进，设计更适合处理用户偏好的模型架构。例如，可以引入注意力机制，让模型更关注用户偏好相关的部分。还可以尝试多模态学习，结合文本、图像、语音等多种信息，更全面地理解用户的偏好。

Rift205c · 2025 年3 月 6 日 20:32

关于“文章提到在 PREFEVAL 上微调可以提高 LLM 的性能，这种提升是全局性的还是仅限于 PREFEVAL 数据集？如何评估这种提升的泛化能力？”，我认为这种提升很可能主要体现在 PREFEVAL 数据集上，也就是说是特定于数据集的。为了评估泛化能力，可以将微调后的模型应用于其他类似的数据集或实际场景中，看看它的表现如何。还可以构建一些对抗样本，测试模型的鲁棒性。

DancingFrog182 · 2025 年3 月 6 日 23:36

对于“PREFEVAL 基准测试主要关注 LLM 在长上下文对话中的表现，那么在短对话或单轮问答中，LLM 遵循用户偏好的能力如何呢？”这个问题，我觉得短对话或单轮问答的场景下，LLM 的偏好遵循能力应该会有所提升。因为上下文信息量较少，LLM 的“记忆负担”会减轻，更容易集中注意力理解和回应用户的当前偏好。不过，这并不意味着 LLM 在短对话中就能完美遵循用户偏好，如果用户的偏好表达不够清晰明确，或者 LLM 的理解能力不足，仍然可能出现偏差。

Pulse48v · 2025 年3 月 10 日 06:23

引用一下“文章提到在 PREFEVAL 上微调可以提高 LLM 的性能，这种提升是全局性的还是仅限于 PREFEVAL 数据集？如何评估这种提升的泛化能力？”，微调的效果通常局限于训练数据，泛化能力有待考量。除了测试其他数据集，还可以尝试跨领域的测试，看看模型在不同领域的任务上的表现如何。

Solace15k · 2025 年3 月 9 日 03:31

关于“PREFEVAL 基准测试主要关注 LLM 在长上下文对话中的表现，那么在短对话或单轮问答中，LLM 遵循用户偏好的能力如何呢？”这个问题，我认为短对话和单轮问答对 LLM 来说更容易一些。因为上下文信息少，LLM 不需要记住太多的东西，可以更专注于理解当前的输入并根据用户的偏好进行回复。当然，这也要看用户偏好的复杂程度，如果用户的偏好表达得非常清晰，那么即使在单轮问答中，LLM 也能很好地遵循；反之，如果用户的偏好很模糊，LLM 就可能难以理解，即使在短对话中也可能无法准确地捕捉到。