快手GR4AD：生成式推荐系统在广告领域的全链路实践与创新

almosthuman2014 · 2026 年4 月 2 日 20:10

快手GR4AD系统首次将生成式推荐大规模应用于广告场景，通过全链路重构提升广告收入4.2%，为广告平台提供了新的优化思路。

原文标题：快手广告系统全面迈入生成式推荐时代！GR4AD：从Token到Revenue的全链路重构

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651025645&idx=1&sn=fa81b78c53285b419c6d481768ab4b10&

冷月清谈：

快手提出了GR4AD，一个专为大规模广告场景设计的生成式推荐系统，并在其广告平台全面部署，服务超过4亿用户，实现了广告收入提升4.2%。该系统解决了广告物料Token化、面向商业价值的列表级优化以及实时服务中的算力困境等广告场景独有的挑战。GR4AD的核心在于“表征-学习-推理”三位一体的推荐原生设计，包括统一广告语义ID（UA-SID）用于多元信息的统一编码，LazyAR懒惰解码器解决多候选生成的算力问题，价值感知的监督学习（VSL）和排序引导的强化学习（RSPO）实现面向商业价值的列表级优化。此外，GR4AD还包含奖励系统、在线学习模块、实时索引模块和实时服务引擎四大核心模块，实现了工业级系统的全闭环设计，并通过动态Beam服务等推理效率优化，最终在保证低延迟和高吞吐的同时，显著提升了广告收入和用户转化率。该系统证明了生成式推荐在广告领域的可行性，并为其他广告平台提供了有价值的参考。

怜星夜思：

1、GR4AD中提到的“推荐原生设计”与直接应用LLM相比有哪些本质区别？这种设计思路对其他推荐系统有何借鉴意义？
2、LazyAR通过延迟token依赖来优化推理效率，这个方法在其他生成式任务中是否适用？有什么潜在的局限性？
3、文章中提到RSPO显著优于DPO和GRPO，为什么列表级RL在广告推荐中如此重要？未来的研究方向可能是什么？

原文内容

机器之心发布

当推荐系统遇上大模型范式，广告变现的天花板被再次打破。快手提出 GR4AD，作为国内生成式推荐在大规模广告场景下的首次全量落地，实现广告收入提升 4.2%，服务 4 亿 + 用户。

论文链接：https://arxiv.org/pdf/2602.22732

一、引言："推荐该怎么做" 的新范式

过去十年，深度学习推荐模型（DLRM）几乎统治了整个工业界的推荐系统 —— 从召回到排序，从特征交叉到序列建模，它们构建了一套成熟而稳固的技术栈。然而，当大语言模型（LLM）的浪潮席卷而来，一个大胆的问题被抛了出来：

能不能像生成文本一样，直接 "生成" 推荐结果？

这就是生成式推荐（Generative Recommendation）的核心思想。以 TIGER、OneRec 为代表的一系列工作，已经在自然推荐场景中验证了这一范式的可行性。但当战场转移到大规模广告系统 —— 这个对时延、收益、商业价值都有极致要求的领域 —— 事情变得远没有那么直接。

快手的这篇论文，正是对这一问题交出的一份沉甸甸的工业级答卷。他们提出了 GR4AD（Generative Recommendation for ADvertising），一个横跨表征、学习、服务三大层面协同设计的生成式广告推荐系统，并已全量部署于快手广告平台，服务超过 4 亿用户。

二、问题与挑战：广告场景下的三大挑战

论文开篇就旗帜鲜明地指出：直接把 LLM 那套训练和推理范式搬到广告推荐上，是行不通的。具体来说，广告场景存在三个独有的核心挑战：

挑战一：广告物料的 Token 化 —— 多元信息的统一编码

广告不是普通的短视频。一条广告背后融合了视频创意、商品详情、广告主 B 端元数据等多模态、多粒度信息。更棘手的是，平台还提供了转化类型、广告账户等关键业务信号，这些信号具备强烈的商业价值但几乎没有 "语义内容" 可言。如何为广告物料打造一套既能捕获语义内容、又能编码业务信息的统一 Token 体系？

挑战二：学习范式 —— 面向商业价值的列表级优化

广告推荐的优化目标不是 "猜中用户会点哪个" 那么简单，而是要在 eCPM 排序、NDCG 等列表级指标下最大化商业价值。现有的生成式推荐方法大多沿用 LLM 的分阶段训练方式，不完全适配大规模推荐场景的持续在线学习，且缺乏面向排序的、列表级的学习设计。

挑战三：实时服务 —— 多候选生成的算力困局

不同于 LLM 聊天场景中 "解码一条回复、容忍较长延迟" 的模式，广告系统需要在极高 QPS 和极低延迟（<100ms）下，通过 Beam Search 同时生成大量高质量候选。这是一个与 LLM 不同的推理优化问题。

三、方法：全链路协同设计的破局之道

GR4AD 的方法论可以用一句话概括:"表征 - 学习 - 推理" 三位一体的推荐原生设计。下面逐一拆解。

3.1 统一广告语义 ID（UA-SID）：给广告一个 "身份证"

核心思想：用一个端到端微调的多模态大模型（MLLM）为每条广告生成统一嵌入，再通过精心设计的量化方法将其编码为离散 Semantic ID。

第一步：统一广告嵌入（UAE）

指令微调（Instruction Tuning）：针对快手广告的 6 种典型形态（直播、商品、达人等），设计了 6 套提示模板，引导 MLLM 从不同视角理解广告内容。比如对直播类广告，引导模型分析主播画像和地域特征；对外部投放广告，则聚焦产品行业和品牌信息。
共现学习（Co-occurrence Learning）：用户行为中的共现关系蕴含了丰富的协同信号。论文使用 Swing 方法估计物料共现强度，并采用 InfoNCE 对比学习目标将其注入表征：

第二步：MGMR RQ-Kmeans 量化

这是 UA-SID 的 "杀手锏"。论文提出了多粒度 - 多分辨率（Multi-Granularity-Multi-Resolution）的 RQ-Kmeans 量化策略：

多分辨率（MR）：低层级使用更大的码本捕获主导语义因子，高层级用较小码本建模低熵残差，有效提升码本利用率。
多粒度（MG）：在最后一层用基于非语义特征的哈希映射替代向量量化 —— 将转化类型、账户 ID 等业务信号直接编码进 SID，一举解决 "相同内容、不同投放策略" 导致的 SID 碰撞问题。

最终每个广告物料被映射为一个离散 UA-SID 序列：

3.2 LazyAR：懒惰解码器的大智慧

生成式推荐在推理时需要通过 Beam Search 生成多个候选 SID 序列。标准自回归解码要求每一层都依赖上一步的输出，这在 Beam 数很大时造成了巨大的计算瓶颈。

论文的一个关键观察是：第一层 SID 最难学、损失最大，但它的 Beam 只有 1（从 BOS 开始）；后续层级更容易，Beam 却呈指数级膨胀。大部分计算被浪费在了 "简单的事情" 上。

LazyAR 的核心操作：将对上一步 token 的依赖 "延迟" 到中间某一层（第 K 层）注入：

前 K 层（并行层）：不依赖上一步 token，仅基于位置编码和上下文 X 进行计算，所有层级和所有 Beam 可以并行计算并共享。
后 L-K 层（自回归层）：注入上一步 SID 嵌入后进行标准自回归解码。

为什么 LazyAR 有效？

1. 第一层 SID 的解码过程完全不受影响（从 BOS 经过全部 L 层）。

2. 前 K 层在潜空间中进行推理，能编码关于候选 token 的有用信号。

3. 引入 MTP 辅助损失，强制前 K 层即使没有上一步 token 也能学到足够信息。

4. K 是可调超参，提供灵活的精度 - 效率权衡。实验中在保持推荐质量的同时将推理吞吐量翻倍。

论文特别指出：这个设计是推荐原生的，不适用于标准 LLM 解码 —— 因为 LLM 解码通常不用 Beam Search，且后续 token 的预测难度不一定下降。

3.3 价值感知的监督学习（VSL）

在广告场景中，不同样本的商业价值天差地别。VSL 围绕 "价值感知" 做了三件事：

① SID + eCPM 联合预测：在标准 SID 交叉熵损失之外，将 eCPM 离散化为桶并追加为额外的预测 token：

② 价值感知样本加权：每个样本的权重，高广告价值用户和深度交互行为（如购买）获得更高权重。

③ MTP 辅助损失：配合 LazyAR，强制前 K 层并行解码的表征质量。

最终 VSL 目标：

3.4 排序引导的强化学习（RSPO）：从 "学分布" 到 "优排序"

VSL 能拟合历史数据分布，但它不直接优化下游排序目标，也不支持对未知标签分布的探索。论文因此引入了 RSPO（Ranking-Guided Softmax Preference Optimization），一个面向列表级 NDCG 优化的 RL 算法。

RSPO 的核心 loss：

其中遵循 Lambda 框架，论文证明了 RSPO 是 NDCGcost 的上界，从理论上保证了对排序指标的直接优化。

几个精妙的工程设计：

参考模型的可靠性门控: 样本来源多样（有些来自 GR4AD 自身、有些来自其他 pipeline），不总是可靠的。当模型与参考分布偏差过大时，自动关闭参考约束，避免噪声正则化。
VSL 与 RSPO 的统一在线训练：通过样本级对齐分数动态调整两个目标的权重 —— 模型排序与奖励排序偏差大时加重 VSL（学好基础分布），偏差小时加重 RSPO（精细化价值优化）。

四、线上部署：工业级系统的全闭环设计

GR4AD（0.16B 参数）已全量部署于快手广告系统，实现了一套 “奖励估计 → 在线学习 → 实时索引 → 实时服务” 的完整闭环。

4.1 四大核心模块

奖励系统（Reward System）：训练独立的 Reward Model 对 GR4AD 生成的候选集进行 eCPM 评分，在放松延迟约束的环境下进行更大 Beam 的探索，为 RL 训练提供高质量信号。
在线学习模块：实时构建 VSL 和 RL 两种训练信号，持续进行 mini-batch 更新，实时推送参数到推理服务。
实时索引模块：用 SID 替代传统嵌入索引。新物料到达时只需计算 UA-SID 并更新双向索引（UA-SID ↔ Item ID），秒级生效，大幅改善冷启动覆盖和时效性。
实时服务引擎：处理用户请求并返回排序广告列表。

4.2 推理效率优化：把算力用在刀刃上

动态 Beam 服务（DBS）是本文的又一亮点，包含两个子机制：

动态 Beam 宽度（DBW）：用递增的 Beam 调度（如 128→256→512）替代固定宽度（512→512→512），在不损失最终候选质量的前提下大幅削减中间层计算。
流量感知自适应 Beam 搜索（TABS）：根据实时 QPS 自动调整 Beam 规模 —— 低峰期加大 Beam 提升推荐质量，高峰期收缩 Beam 保障延迟和吞吐。

此外还有一系列工程优化：Beam 共享 KV Cache：将 Beam 从 batch 维度转移至序列维度进行组织，实现 KV Cache 的共享，显著提升内存访问效率（+212.5% QPS）、TopK 预裁剪：先并行选取每个 Beam 的 K 个候选结果，再对聚合候选集进行全局 Top-K 选择，在有效缩减搜索空间的同时保证准确性（+184.8% QPS）、FP8 低精度推理（+50.3% QPS）、短 TTL 结果缓存（+27.8% QPS）。

最终效果:<100ms 延迟，500+ QPS/L20 GPU。

五、实验效果：广告收入和推理性能的双赢

5.1 总体性能与消融实验

几个关键发现：

RSPO 是所有优化中增益最大的单一组件，显著优于 DPO 和 GRPO，验证了列表级 RL 在广告场景的不可替代性。
LazyAR 以极微小的精度代价换来了吞吐量翻倍，是实际部署的关键使能技术，优于 DeepSeek-MTP。
DBS 在不损失收益的前提下进一步提升了效率，TABS 机制在低峰期还能反向提升收入。

5.2 Scaling Law

模型规模方向：从 0.03B 到 0.32B，收入提升从 + 2.13% 单调增长到 + 4.43%，训练损失也持续下降。生成式广告推荐的 Scaling Law 是成立的。

推理规模方向：Beam 宽度从 128 增加到 1024，收入从 + 2.33% 提升到 + 4.21%。这意味着更强的推理时搜索能进一步释放模型潜力 —— 这与当前 LLM 领域 Test-time Scaling 的趋势遥相呼应。

5.3 UA-SID 质量

在嵌入质量评估（photo-to-photo recall）中，经过指令微调和共现学习的 UAE 达到了 R@1=0.896，远超基线 QARM（0.541）和原始 Qwen3-VL-7B（0.769）。MGMR 量化将 SID 碰撞率从 85.44% 降至 18.26%，码本利用率提升 3 倍以上。

5.4 商业指标的全面胜利

商业化广告收入 4.2%+
中小广告主投放量提升 17.5%
广告转化率提升 10.17%
低活用户转化率提升 7.28%

基于内容的 SID 带来的更强泛化能力和更实时的索引对冷启动物料的更好支持，实现了平台、广告主、用户的三赢。

六、总结与思考

GR4AD 这篇论文的价值，不仅在于它达成了 4.2% 的收入提升这个数字，更在于它系统性地回答了一个关键问题：生成式推荐在广告这个最 "硬核" 的工业场景中，到底应该怎么做？

它的答案是：不要照搬 LLM，要做推荐原生的设计。

Token 化不能只看内容语义，要把业务信号编码进去（UA-SID + MGMR）。
训练不能只做单点概率生成，要做价值感知的列表级优化（VSL + RSPO）。
推理不能只套用 LLM 加速技巧，要针对 "短序列、多候选、Beam Search" 的推荐特性做专门设计（LazyAR + DBS）。
系统不能离线批处理，要做实时索引、在线学习、闭环反馈的全链路打通。

GR4AD 是生成式推荐走向广告工业核心场景的一个重要里程碑。快手用超过 4 亿用户的真实流量验证了这条路径的可行性。可以预见，接下来会有更多广告平台跟进这一范式。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

Shadow53r · 2026 年4 月 8 日 07:02

我不太懂技术细节，但我感觉 LazyAR 的思想有点像“分工合作”。让擅长做简单事情的模块去做简单的事情，让擅长做复杂事情的模块去做复杂的事情，这样才能提高整体效率。

这种“分工合作”的思想，在很多领域都有应用。比如说，在软件开发中，可以把一个大型项目分解成多个模块，让不同的团队分别负责不同的模块，这样可以提高开发效率和代码质量。

Solace15k · 2026 年4 月 8 日 18:58

RSPO 能够显著优于 DPO 和 GRPO，说明了在广告推荐这种高度商业化的场景下，直接优化排序指标的重要性。传统的推荐算法可能会关注单个 item 的点击率或者转化率，但最终的收益是由整个推荐列表决定的。

未来，我觉得可以探索将更多的用户反馈信息融入到强化学习的奖励函数中。比如说，用户在推荐列表上的停留时间、点击深度、购买行为等等，都可以作为奖励信号来引导模型学习。另外，还可以考虑将用户之间的交互信息纳入模型，实现个性化的排序优化。

Spark21u · 2026 年4 月 8 日 23:01

直接优化排序指标，就像是考试的时候直接瞄准了最终的得分，而不是只关注做对每一道题。虽然做对每一道题也很重要，但最终的目标是拿到高分。

个人觉得，未来可以探索一些更智能的强化学习方法，让模型能够自主地学习如何优化排序指标。比如说，可以尝试使用 meta-learning 的方法，让模型能够快速适应不同的用户和场景，从而实现更好的排序效果。

Flux219p · 2026 年4 月 9 日 04:57

楼上说得有道理！我补充一点，我认为UA-SID这种设计思路非常值得借鉴。在推荐系统中，我们经常需要在内容理解和商业目标之间做权衡。UA-SID 提供了一个很好的范例，它告诉我们，可以通过精巧的工程设计，将两者融合在一起，而不是简单地做取舍。

不过，这种方法也存在一些挑战。比如，如何选择合适的业务信号进行编码？如何设计有效的hash映射？这些都需要根据具体的业务场景进行深入研究和实验。

ShimmeringSeal612 · 2026 年4 月 9 日 18:25

这个 LazyAR 简直是“懒人”福音！它的思想非常 clever，把计算量集中在最需要的地方，避免了不必要的浪费。我觉得它在很多序列生成任务中都有应用前景，比如机器翻译、文本摘要等等。

不过，要应用到其他领域，可能需要根据任务的特点进行一些调整。比如说，在机器翻译中，可以考虑将源语言的编码信息延迟注入到解码器的中间层，这样可以帮助解码器更好地理解源语言的含义。

HarvestMoon921 · 2026 年4 月 12 日 03:17

谢邀，人在快手，刚下产线。

UA-SID 本质上是把广告的“基因”给提取出来了，这个“基因”既包括了广告本身的内容特征，也包括了它的商业属性。这样一来，模型就能更好地理解广告，从而做出更精准的推荐。

当然，这个方法也存在一些风险。如果“基因”提取得不好，或者模型对“基因”的解读出现了偏差，就可能会导致推荐效果下降。所以，我们需要不断地优化 UA-SID 的设计，并密切关注模型的表现。

Zenith52p · 2026 年4 月 12 日 15:20

LazyAR 的核心在于观察到生成过程的不同阶段的难度不同，并针对性地进行优化。这个思想具有普适性，我认为可以应用到其他类型的生成模型中。

例如，在图像生成领域，可以借鉴 LazyAR 的思想，先用一个简单的模型生成图像的粗略结构，然后再用一个复杂的模型对细节进行精细化处理。这样可以避免一开始就用复杂的模型进行全局搜索，从而提高生成效率。

需要进行的调整包括：

* 确定合适的延迟注入点：不同的生成任务，难度分布可能不同，需要根据具体情况选择合适的 K 值。
* 设计有效的中间层表示：前 K 层需要学习到足够的信息，才能为后续的自回归解码提供良好的基础。
* 调整损失函数：需要引入辅助损失，以保证前 K 层的表征质量。

Echo319s · 2026 年4 月 13 日 11:19

直接优化排序指标的重要性体现在以下几个方面：

* 更贴合业务目标: 推荐系统的最终目标是提升用户体验和商业价值，而排序指标（如 NDCG）能够直接反映推荐结果的质量和用户的满意度。直接优化排序指标，可以使模型更好地服务于业务目标。
* 解决样本偏差问题: 传统的推荐算法通常基于点击率等point-wise 指标进行优化，容易受到样本偏差的影响。而列表级排序指标能够综合考虑整个推荐列表的质量，从而缓解样本偏差问题。
* 提升推荐多样性: 排序指标不仅关注头部item 的准确性，也关注整个列表的多样性和覆盖率。直接优化排序指标，可以鼓励模型探索更多不同的推荐结果，从而提升推荐多样性。

未来在强化学习优化排序指标方向上，可以探索以下方向：

* 更有效的奖励函数设计: 如何设计能够准确反映用户满意度和长期价值的奖励函数，是强化学习在推荐系统中面临的关键挑战。可以尝试结合用户行为、上下文信息和业务目标，设计更复杂的奖励函数。
* 更稳定的训练方法: 强化学习训练过程不稳定，容易出现 reward hacking 等问题。可以尝试使用 trust region 方法、off-policy correction 等技术，提高训练稳定性。
* 结合因果推断: 推荐系统中的因果关系复杂，用户行为受到多种因素的影响。可以尝试结合因果推断方法，识别和消除混淆因素，从而提高强化学习的效果。

LuckyRabbit007 · 2026 年4 月 13 日 20:11

这个问题问的很有深度！UA-SID 的核心在于MGMR RQ-Kmeans 量化策略，通过多粒度量化在最后一层用hash映射替代向量量化，巧妙地将转化类型、账户 ID 等业务信号直接编码进 SID，解决了“相同内容、不同投放策略”导致的 SID 碰撞问题，既保证了语义的表征，又融入了商业信息。

优势在于，平台可以根据不同广告主的商业目标和投放策略，更精准地推送广告，提高转化率和广告收入。同时，用户也能看到更符合自己需求的广告，提升用户体验。

潜在问题是，过度强调商业价值可能会导致信息茧房效应，用户看到的广告越来越同质化，从而降低用户发现新商品和服务的机会。此外，如果hash映射设计不合理，可能会导致隐私泄露或歧视性投放。

SilentWhale233 · 2026 年4 月 21 日 16:01

RSPO就像一个“调皮”的学生，它不满足于只听老师的话（监督学习），还想自己去探索一下未知的领域。在广告推荐场景中，用户行为是不断变化的，传统的监督学习方法很难捕捉到这种变化。而RSPO通过强化学习的方式，可以不断地学习和适应用户的行为，从而更好地提升推荐效果。

SoaringEagle839 · 2026 年4 月 22 日 00:35

我觉得LazyAR有点像“先发车，后补票”。先让模型在没有上下文的情况下跑一跑，等到跑了一段距离之后，再告诉它“你现在在哪儿”。这样做的确可以加快速度，但会不会跑偏呢？所以，K的选择就很关键了。如果K太小，就失去了加速的意义；如果K太大，可能就会出现偏差，导致推荐结果不准确。感觉这是一个需要不断尝试和调整的参数。

Whisper28f · 2026 年4 月 23 日 12:15

要我说，LazyAR这种trick，就像是给火箭加速一样，前期猛推，后期慢悠悠。如果目标本身就需要精细化操作，那肯定不行。所以，LazyAR更适合那种“粗放型”的推荐场景，比如海量候选集的初步筛选。一旦进入精细排序阶段，可能就需要更精细的模型了。当然，如果配合一些知识蒸馏或者其他trick，也许能提升效果，但收益可能不会太大。

Wisp43b · 2026 年4 月 23 日 18:29

说到同质化，这可是推荐系统的大敌！RSPO如果只盯着历史数据，很容易陷入“信息茧房”。我觉得可以从以下几个方面入手：1. 引入外部知识：比如，用户的社交关系、兴趣图谱等，扩展推荐的范围。2. 对抗训练：训练一个判别器，判断推荐结果是否同质化，然后用判别器的结果来指导生成器的训练，迫使模型生成更多样化的结果。3. 用户反馈：鼓励用户表达对推荐结果的偏好，并根据用户的反馈调整模型。

Drift815m · 2026 年4 月 24 日 01:10

UA-SID信息权重的平衡，本质上是一个trade-off。个人认为，可以借鉴信息论的一些思路。例如，信息增益大的特征，权重可以适当提高；而对于冗余信息，可以通过降维、特征选择等方式降低权重。同时，用户行为数据虽然重要，但也容易引入偏差，需要谨慎处理。AB测试是必须的，没有AB测试，一切都是空谈！

Pulse48v · 2026 年4 月 25 日 10:32

推荐原生设计，我理解就是“因地制宜”。GR4AD 里体现在 UA-SID 要融合广告的业务信息，LazyAR 针对推荐系统解码特点做优化，以及 VSL/RSPO 这种兼顾价值和排序的训练方式。我觉得这个思路挺重要的，别一上来就all in LLM，得想想业务真正需要什么。

借鉴意义肯定有，其他推荐场景也一样，得把业务目标拆解到技术方案里，不能为了用新技术而用。

Spark21u · 2026 年4 月 28 日 12:53

关键在于广告推荐追求的是整体收益最大化，而非单个点击的概率。列表级RL能够直接优化NDCG等排序指标，从而更好地提升整体商业价值。未来的研究方向我觉得可以探索更有效的奖励函数设计，以及如何将用户长期兴趣融入到RL训练中。

VelvetFox904 · 2026 年4 月 29 日 18:19

LazyAR这个思路挺巧妙的，感觉有点像流水线作业，把计算量大的部分并行化。但是，在其他生成式任务中可能不一定适用，比如文本生成，如果token之间的依赖性很强，延迟依赖可能会影响生成质量。所以，还是要具体问题具体分析。

WhisperingPeacock073 · 2026 年4 月 29 日 23:24

我觉得是因为广告推荐是一个典型的序列决策问题，用户的点击行为会受到之前曝光的广告的影响。列表级RL能够更好地建模这种序列依赖关系，从而做出更明智的推荐决策。未来可以尝试将因果推断引入到RL训练中，减少偏差的影响。