腾讯研究团队提出意图检测新范式：强化学习+奖励机制，泛化能力显著提升

almosthuman2014 · 2025 年5 月 16 日 12:39

腾讯研究团队提出基于强化学习的意图检测新方法，通过 GRPO 算法和 RCS 策略，显著提升模型泛化能力，有效应对工具爆炸带来的意图识别挑战。

原文标题：泛化性暴涨47%！首个意图检测奖励范式，AI工具爆炸时代意图识别新解法

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650969247&idx=3&sn=c71de2d50606770177263ece5681dcc1&

冷月清谈：

腾讯 PCG 社交线的研究团队，针对 AI 智能助手在意图识别方面临的泛化性难题，创新性地采用强化学习（RL）训练方法，结合分组相对策略优化（GRPO）算法和基于奖励的课程采样策略（RCS），显著提升了模型在未知意图上的泛化能力。实验表明，相比于传统的监督微调（SFT）方法，该方法在未见意图和跨语言能力上表现更佳。此外，研究还发现引入思考（Thought）以及选择预训练或指令微调模型作为基础，对模型性能影响不大，但严格的输出格式约束至关重要。该研究为解决工具爆炸背景下的意图识别难题提供了新思路。

怜星夜思：

1、文章提到强化学习在意图识别中优于监督微调，这是否意味着在所有自然语言处理任务中，强化学习都将取代传统的监督学习方法？
2、文章中提到的“Thought”对提升泛化能力有重要作用。这个“Thought”具体指什么？如何在实际应用中引入“Thought”？
3、文章提到严格的输出格式约束对意图识别很重要，这是否意味着在AI智能助手中，输出控制比输入理解更重要？

原文内容

随着大模型（LLMs）的快速发展和可集成工具的爆炸增长，AI 智能助手在日常生活中可提供的便利越来越多，不仅包括传统任务型对话中订机票、查询天气等助理能力，还增加了无以计数的 AI 能力，如 AI 画图、解数学题、游戏攻略等。而 AI 智能助手准确理解用户的意图（Intent Detection）并路由至下游工具链是实现这些功能的第一步，其重要性不言而喻。

然而，工具的快速迭代、多样化、工具之间关系的复杂化也给意图识别带来新的挑战，即模型在应对新意图时普遍存在性能衰减问题。如何在开源的轻量级 LLMs 上训练泛化性更好、鲁棒性更强的意图识别模型，使得模型能够更准确理解未见场景的意图至关重要。

近日，腾讯 PCG 社交线的研究团队针对这一问题，采用强化学习（RL）训练方法，通过分组相对策略优化（Group Relative Policy Optimization, GRPO）算法，结合基于奖励的课程采样策略（Reward-based Curriculum Sampling, RCS），将其创新性地应用在意图识别任务上，显著提升模型在未知意图上的泛化能力，攻克了工具爆炸引发的意图泛化难题，推动大模型在意图识别任务上达到新高度。

论文标题：Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling
论文链接：https://www.arxiv.org/abs/2504.13592

基于强化学习的意图识别

该团队进行了大量实验，从不同维度深入剖析了 GRPO 算法在这一任务上的优势。该工作的贡献主要为以下四个方面：

1. 该团队证明了在意图检测问题上，通过强化学习（RL）训练的模型在泛化能力上显著优于通过监督微调（SFT）训练的模型，具体体现在对未见意图和跨语言能力的泛化性能大幅提升。值得一提的是除了完全新的未见意图，该工作还比较了对已知意图进行拆分、合并等实际产品场景会遇到的真实问题。

2. 该团队通过基于奖励的课程采样策略进一步增强了 GRPO 的训练效果，有效引导模型在训练过程中聚焦于更具挑战性的样例。

3. 在强化学习过程中引入思考（Thought），显著提升了模型在复杂意图检测任务中的泛化能力。这一发现表明，在更具挑战性的场景中，Thought 对于提升模型的泛化能力至关重要。

4. 该团队发现，在意图识别任务中，无论选择预训练模型（Pretrain）还是指令微（Instruct）调模型作为基础，经过相同轮次的 GRPO 训练后，两者性能相近。这一结果与传统训练经验有所不同。

训练方法

奖励函数

针对强化学习训练目标，该团队从格式奖励和准确率奖励两个维度进行引导：

其中和分别为各奖励分量的权重系数。

格式奖励：基于提示模板的指令规范，严格约束模型输出格式。

准确率奖励：基于意图检测准确率的二元奖励函数，从模型输出中提取预测意图，并与真实标签进行精确匹配：

基于奖励的课程采样

该团队采用课程学习的思路分两步对模型进行训练。

离线数据分类该团队通过离线的方法对所有数据的难度进行了分类。具体过程中先进行一遍完整的 GRPO 方法，记录每条数据的 reward，根据每条数据的 reward 作为难度得分，如下公式所示：

其中 G 为采样总数。

课程采样在课程学习过程中，第一阶段在所有数据上进行训练直到模型基本收敛；第二阶段筛选保留的数据作为难样例进行训练。这一采样方法帮助模型在第二阶段更好的关注容易出错的难数据。

实验：RL 能够帮助模型理解任务而不是模仿任务识别

实验设置：

数据集：该团队在 TODAssistant（自建中文数据集）和 MultiWOZ2.2（公开英文数据集）两个基准上开展评测。MultiWOZ2.2 数据集是公开的 TOD 任务数据集，该研究团队在该数据集上提取出了意图分类这个任务。
模型选取：该团队选取 Qwen2.5-7B-Instruct 模型作为基座模型，分别对于 SFT 方法和 GRPO 方法训练相同 epoch 来对比模型性能。
评测指标：用正确率评测意图分类的准确性。

GRPO 方法与 SFT 方法的对比：研究团队首先对比了 SFT 方法和 GRPO 方法。直接使用原始的 GRPO 方法，在意图识别任务上，模型可以达到与 SFT 相近的性能，在英文的 MultiWOZ2.2 数据集上做到了与 SFT 模型相同的表现，证明了 GRPO 方法在该任务上的有效性。

为了进一步探究 GRPO 的优势，研究团队针对模型的泛化性进行了评测。具体来说，在 MultiWOZ 数据集上，在训练过程中分别去掉测试集中的每个类别；在 TODAssistant 数据集上对原有的类别进行组合和细分操作，获得新的类别，来验证模型在该新类别上的准确性；该团队还测试了模型的跨语言能力（在英文数据集上训练后的模型在中文测试集上的结果）。实验结果表明，GRPO 方法相较于 SFT 方法，有着更好的泛化性能。

RCS 方法实验结果：在此基础上，研究团队进一步应用 RCS 方法进行实验。结果表明，在课程学习的第一阶段，模型收敛到与原始 GRPO 方法相近的准确率；在第二阶段难样例筛选过程后，模型的准确率进一步提升。

该团队在课程学习第二阶段的采样过程中，对于难样例与正常训练数据的比例进行了实验，随机在其他训练数据中采样与难样例混合共同训练。结果表明，单独训练难样例取得了最好的效果。

Thought 对于训练过程的影响：研究团队还探究了在意图识别这种逻辑较为简单的任务上 Thought 对于结果的影响。该团队发现，在这类任务上 Thought 同样有着关键的作用：在 TODAssistant 数据上，Thought 对于泛化能力的提升尤为重要；在 MultiWOZ2.2 数据集上，去掉 Thought 后模型的性能出现了大幅下降。

Pretrain 模型和 Instruct 模型在该任务上的区别：研究团队发现，在意图识别任务上，选取 Pretrain 模型或者 Instruct 模型作为底座，在经过相同的 epoch 进行 GRPO 训练后，可以收敛到相近的性能，这与传统的训练经验有所不同。

同时该团队还发现，instruct 模型在宽松格式和严格格式奖励函数下的生成长度均保持稳定。然而，Pretrain 模型在宽松格式奖励下生成长度先下降后上升，而严格格式奖励下则无此趋势。值得注意的是，这种长度增加并未提供有效信息。这一对比表明，类似 R1 的强化学习训练会诱导模型通过增加输出长度来获取更高奖励，但在相对简单的意图检测任务中，真正的「顿悟时刻」难以出现。

未来展望

1. 在线数据筛选方法：现如今该团队的 RCS 数据筛选方法仍然是离线的，在后续的工作中将探索更高效的在线筛选方法。

2. 多意图识别：该研究团队针对意图识别的实验目前主要针对单意图场景，在后续工作中将继续探索多意图的识别。

3. 任务型对话相关任务扩展：目前该团队的实验都是在意图识别任务上进行，在未来的工作中将继续在更复杂的任务型对话相关任务上进行尝试。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

GentleBreeze816 · 2025 年5 月 19 日 09:19

这个Thought啊，说白了就像是给AI加了个“脑子”，让它不光会死记硬背，还能稍微动动脑筋。引入Thought的方法有很多，最直接的就是在模型里加一些推理模块，比如让模型在给出答案之前先生成一段“思考过程”，或者引入外部知识库，让模型在做决策的时候能查阅一下资料。当然，这也会增加模型的复杂度，需要权衡一下。

Strider82w · 2025 年5 月 20 日 02:07

我理解的“Thought”是一种更高层次的理解能力，类似于人类的认知过程。模型需要能够理解用户query背后的逻辑和上下文信息，而不仅仅是表面上的关键词。为了引入这种“Thought”，可以尝试以下方法：1）使用预训练模型，这些模型通常已经学习了大量的知识；2）使用更复杂的模型结构，如Transformer，能够更好地捕捉上下文信息；3）使用知识图谱，为模型提供更丰富的背景知识 4）设计更精巧的训练目标，例如引入对比学习，提示模型提取关键信息。

Blaze03m · 2025 年5 月 20 日 10:07

我觉得不能一概而论。强化学习在一些特定场景下，比如需要模型具备更强的探索能力和泛化能力时，可能会表现更好。但监督学习在数据充足、任务明确的情况下，仍然是高效且可靠的选择。关键还是要看任务的特性和数据的质量。

VioletRaven051 · 2025 年5 月 20 日 10:40

我觉得这个问题可以从两个角度来看。从工程角度来说，输出控制可能更重要，因为它可以保证系统的稳定性和可靠性。如果AI助手的输出格式经常出错，用户体验会很差。但从研究角度来说，输入理解仍然是核心问题，只有准确理解用户的意图，才能真正实现智能化的交互。所以，两者都很重要，只是在不同的阶段侧重点不同。

PolishedStone452 · 2025 年5 月 20 日 18:38

从研究角度看，强化学习的确为意图识别打开了新的大门。但是，在实际生产环境中，考虑到部署和维护的成本，以及对数据和算力的要求，监督学习可能仍然是更主流的选择。不过，这项研究也提示我们，可以尝试将强化学习的一些思想融入到监督学习的训练过程中，比如，通过设计合适的奖励函数来引导模型的学习。

Fluxion29d · 2025 年5 月 21 日 12:33

这个“Thought”应该是指模型在进行意图识别时，能够进行一定的推理和思考，而不是简单地进行模式匹配。比如，当用户输入“帮我订明天早上八点去北京的机票”时，模型不仅要识别出“订机票”这个意图，还要理解“明天”、“早上八点”、“北京”这些具体的信息，并将它们关联起来。引入“Thought”可以通过更复杂的模型结构，比如Transformer，或者知识图谱来实现。

CloudySky415 · 2025 年5 月 22 日 01:46

倒也不能说更重要，应该说同样重要。AI智能助手需要准确理解用户的意图，才能做出正确的决策。但如果输出的格式不规范，用户可能无法理解助手的回答，或者无法进行后续操作。所以，输入理解和输出控制是相辅相成的，缺一不可。

Ion31q · 2025 年5 月 22 日 04:17

这就像盖房子，输入理解是地基，地基不稳，房子盖不高；输出控制是装修，装修不好，住着不舒服。地基和装修都很重要，没有哪个更重要之说，只有哪个更适合当前阶段。如果地基都没打好，就想着怎么装修，那不是本末倒置吗？

ElectricEel339 · 2025 年5 月 22 日 06:45

同意楼上的观点，强化学习的优势在于它可以通过与环境的交互来学习，从而更好地适应未知的场景。但它的训练成本通常较高，需要大量的实验和调整。监督学习则相对简单直接，适用于那些有明确标签数据的任务。未来可能是两者结合，发挥各自的优势。