快手GR4AD:生成式推荐系统在广告领域的全链路实践与创新

快手GR4AD系统首次将生成式推荐大规模应用于广告场景,通过推荐原生设计,提升广告收入4.2%,为广告领域带来了新的可能性。

原文标题:快手广告系统全面迈入生成式推荐时代!GR4AD:从Token到Revenue的全链路重构

原文作者:机器之心

冷月清谈:

快手提出了GR4AD,一个为广告场景设计的生成式推荐系统,并在快手广告平台全量落地,服务超过4亿用户,实现了4.2%的广告收入提升。GR4AD针对广告场景的特殊挑战,如物料Token化、商业价值导向的学习范式和实时服务算力需求,进行了全链路的协同设计。

该系统通过统一广告语义ID(UA-SID)将多模态、多粒度的广告信息编码为离散的Semantic ID;LazyAR技术通过延迟解码的方式,在保证推荐质量的同时提高了推理吞吐量;价值感知的监督学习(VSL)和排序引导的强化学习(RSPO)则分别从样本加权和列表级优化角度提升了商业价值。

GR4AD还包含一个完整的工业级系统设计,包括奖励系统、在线学习模块、实时索引模块和实时服务引擎,并采用动态Beam服务(DBS)等推理效率优化技术。实验结果表明,GR4AD在商业指标和推理性能上都取得了显著提升,实现了平台、广告主、用户的三赢。该研究表明,在广告领域应用生成式推荐系统需要进行推荐原生的设计,而非简单照搬LLM的方法。

怜星夜思:

1、GR4AD 中提出的 UA-SID 统一广告语义 ID,是如何平衡广告内容语义和商业价值的?这种平衡在实际应用中会带来哪些优势和潜在问题?
2、LazyAR (懒惰解码器) 通过延迟注入 token 信息来优化推理效率,这个思路非常新颖。你认为 LazyAR 的设计理念,是否可以应用到其他类型的生成模型中?如果可以,可能需要进行哪些调整?
3、文章中提到 RSPO (Ranking-Guided Softmax Preference Optimization) 是一种面向列表级 NDCG 优化的 RL 算法, 并且RSPO是所有优化中增益最大的单一组件,显著优于 DPO 和 GRPO,你认为在推荐系统中,直接优化排序指标的重要性体现在哪些方面?未来在强化学习优化排序指标方向上,还有哪些值得探索的方向?

原文内容

图片
机器之心发布

当推荐系统遇上大模型范式,广告变现的天花板被再次打破。快手提出 GR4AD,作为国内生成式推荐在大规模广告场景下的首次全量落地,实现广告收入提升 4.2%,服务 4 亿 + 用户。



论文链接:https://arxiv.org/pdf/2602.22732


一、引言:"推荐该怎么做" 的新范式


过去十年,深度学习推荐模型(DLRM)几乎统治了整个工业界的推荐系统 —— 从召回到排序,从特征交叉到序列建模,它们构建了一套成熟而稳固的技术栈。然而,当大语言模型(LLM)的浪潮席卷而来,一个大胆的问题被抛了出来:


能不能像生成文本一样,直接 "生成" 推荐结果?


这就是生成式推荐(Generative Recommendation)的核心思想。以 TIGER、OneRec 为代表的一系列工作,已经在自然推荐场景中验证了这一范式的可行性。但当战场转移到大规模广告系统 —— 这个对时延、收益、商业价值都有极致要求的领域 —— 事情变得远没有那么直接。


快手的这篇论文,正是对这一问题交出的一份沉甸甸的工业级答卷。他们提出了 GR4AD(Generative Recommendation for ADvertising),一个横跨表征、学习、服务三大层面协同设计的生成式广告推荐系统,并已全量部署于快手广告平台,服务超过 4 亿用户


二、问题与挑战:广告场景下的三大挑战


论文开篇就旗帜鲜明地指出:直接把 LLM 那套训练和推理范式搬到广告推荐上,是行不通的。 具体来说,广告场景存在三个独有的核心挑战:


挑战一:广告物料的 Token 化 —— 多元信息的统一编码


广告不是普通的短视频。一条广告背后融合了视频创意、商品详情、广告主 B 端元数据等多模态、多粒度信息。更棘手的是,平台还提供了转化类型、广告账户等关键业务信号,这些信号具备强烈的商业价值但几乎没有 "语义内容" 可言。如何为广告物料打造一套既能捕获语义内容、又能编码业务信息的统一 Token 体系


挑战二:学习范式 —— 面向商业价值的列表级优化


广告推荐的优化目标不是 "猜中用户会点哪个" 那么简单,而是要在 eCPM 排序、NDCG 等列表级指标下最大化商业价值。现有的生成式推荐方法大多沿用 LLM 的分阶段训练方式,不完全适配大规模推荐场景的持续在线学习,且缺乏面向排序的、列表级的学习设计。


挑战三:实时服务 —— 多候选生成的算力困局


不同于 LLM 聊天场景中 "解码一条回复、容忍较长延迟" 的模式,广告系统需要在极高 QPS 和极低延迟(<100ms)下,通过 Beam Search 同时生成大量高质量候选。这是一个与 LLM 不同的推理优化问题。


三、方法:全链路协同设计的破局之道


GR4AD 的方法论可以用一句话概括:"表征 - 学习 - 推理" 三位一体的推荐原生设计。 下面逐一拆解。  



3.1 统一广告语义 ID(UA-SID):给广告一个 "身份证"


核心思想: 用一个端到端微调的多模态大模型(MLLM)为每条广告生成统一嵌入,再通过精心设计的量化方法将其编码为离散 Semantic ID。 



第一步:统一广告嵌入(UAE)


  • 指令微调(Instruction Tuning):针对快手广告的 6 种典型形态(直播、商品、达人等),设计了 6 套提示模板,引导 MLLM 从不同视角理解广告内容。比如对直播类广告,引导模型分析主播画像和地域特征;对外部投放广告,则聚焦产品行业和品牌信息。

  • 共现学习(Co-occurrence Learning):用户行为中的共现关系蕴含了丰富的协同信号。论文使用 Swing 方法估计物料共现强度,并采用 InfoNCE 对比学习目标将其注入表征:



第二步:MGMR RQ-Kmeans 量化


这是 UA-SID 的 "杀手锏"。论文提出了多粒度 - 多分辨率(Multi-Granularity-Multi-Resolution)的 RQ-Kmeans 量化策略:


  • 多分辨率(MR):低层级使用更大的码本捕获主导语义因子,高层级用较小码本建模低熵残差,有效提升码本利用率。

  • 多粒度(MG):在最后一层用基于非语义特征的哈希映射替代向量量化 —— 将转化类型、账户 ID 等业务信号直接编码进 SID,一举解决 "相同内容、不同投放策略" 导致的 SID 碰撞问题。


最终每个广告物料被映射为一个离散 UA-SID 序列:


图片


3.2 LazyAR:懒惰解码器的大智慧


生成式推荐在推理时需要通过 Beam Search 生成多个候选 SID 序列。标准自回归解码要求每一层都依赖上一步的输出,这在 Beam 数很大时造成了巨大的计算瓶颈。


论文的一个关键观察是:第一层 SID 最难学、损失最大,但它的 Beam 只有 1(从 BOS 开始);后续层级更容易,Beam 却呈指数级膨胀。 大部分计算被浪费在了 "简单的事情" 上。  



LazyAR 的核心操作: 将对上一步 token 的依赖 "延迟" 到中间某一层(第 K 层)注入:


  • 前 K 层(并行层):不依赖上一步 token,仅基于位置编码和上下文 X 进行计算,所有层级和所有 Beam 可以并行计算并共享

  • 后 L-K 层(自回归层):注入上一步 SID 嵌入后进行标准自回归解码。


为什么 LazyAR 有效?


1. 第一层 SID 的解码过程完全不受影响(从 BOS 经过全部 L 层)。

2. 前 K 层在潜空间中进行推理,能编码关于候选 token 的有用信号。

3. 引入 MTP 辅助损失,强制前 K 层即使没有上一步 token 也能学到足够信息。

4. K 是可调超参,提供灵活的精度 - 效率权衡。实验中 图片在保持推荐质量的同时将推理吞吐量翻倍


论文特别指出:这个设计是推荐原生的,不适用于标准 LLM 解码 —— 因为 LLM 解码通常不用 Beam Search,且后续 token 的预测难度不一定下降。


3.3 价值感知的监督学习(VSL)


在广告场景中,不同样本的商业价值天差地别。VSL 围绕 "价值感知" 做了三件事:


① SID + eCPM 联合预测: 在标准 SID 交叉熵损失之外,将 eCPM 离散化为桶并追加为额外的预测 token:


图片


② 价值感知样本加权: 每个样本的权重 图片,高广告价值用户和深度交互行为(如购买)获得更高权重。


③ MTP 辅助损失: 配合 LazyAR,强制前 K 层并行解码的表征质量。


最终 VSL 目标:


图片


3.4 排序引导的强化学习(RSPO):从 "学分布" 到 "优排序"


VSL 能拟合历史数据分布,但它不直接优化下游排序目标,也不支持对未知标签分布的探索。论文因此引入了 RSPO(Ranking-Guided Softmax Preference Optimization),一个面向列表级 NDCG 优化的 RL 算法


RSPO 的核心 loss



其中 图片 遵循 Lambda 框架,论文证明了 RSPO 是 NDCGcost 的上界,从理论上保证了对排序指标的直接优化。


几个精妙的工程设计:


  • 参考模型的可靠性门控图片: 样本来源多样(有些来自 GR4AD 自身、有些来自其他 pipeline),图片不总是可靠的。当模型与参考分布偏差过大时,自动关闭参考约束,避免噪声正则化。

  • VSL 与 RSPO 的统一在线训练:通过样本级对齐分数动态调整两个目标的权重 —— 模型排序与奖励排序偏差大时加重 VSL(学好基础分布),偏差小时加重 RSPO(精细化价值优化)。


四、线上部署:工业级系统的全闭环设计


GR4AD(0.16B 参数)已全量部署于快手广告系统,实现了一套 “奖励估计 → 在线学习 → 实时索引 → 实时服务” 的完整闭环。 



4.1 四大核心模块


  • 奖励系统(Reward System):训练独立的 Reward Model 对 GR4AD 生成的候选集进行 eCPM 评分,在放松延迟约束的环境下进行更大 Beam 的探索,为 RL 训练提供高质量信号。

  • 在线学习模块:实时构建 VSL 和 RL 两种训练信号,持续进行 mini-batch 更新,实时推送参数到推理服务。

  • 实时索引模块:用 SID 替代传统嵌入索引。新物料到达时只需计算 UA-SID 并更新双向索引(UA-SID ↔ Item ID),秒级生效,大幅改善冷启动覆盖和时效性。

  • 实时服务引擎:处理用户请求并返回排序广告列表。


4.2 推理效率优化:把算力用在刀刃上


动态 Beam 服务(DBS)是本文的又一亮点,包含两个子机制:


  • 动态 Beam 宽度(DBW:用递增的 Beam 调度(如 128→256→512)替代固定宽度(512→512→512),在不损失最终候选质量的前提下大幅削减中间层计算。

  • 流量感知自适应 Beam 搜索(TABS:根据实时 QPS 自动调整 Beam 规模 —— 低峰期加大 Beam 提升推荐质量,高峰期收缩 Beam 保障延迟和吞吐


此外还有一系列工程优化:Beam 共享 KV Cache:将 Beam 从 batch 维度转移至序列维度进行组织,实现 KV Cache 的共享,显著提升内存访问效率(+212.5% QPS)、TopK 预裁剪:先并行选取每个 Beam 的 K 个候选结果,再对聚合候选集进行全局 Top-K 选择,在有效缩减搜索空间的同时保证准确性(+184.8% QPS)、FP8 低精度推理(+50.3% QPS)、短 TTL 结果缓存(+27.8% QPS)。


最终效果:<100ms 延迟,500+ QPS/L20 GPU


五、实验效果:广告收入和推理性能的双赢


5.1 总体性能与消融实验



几个关键发现:


  • RSPO 是所有优化中增益最大的单一组件,显著优于 DPO 和 GRPO,验证了列表级 RL 在广告场景的不可替代性。

  • LazyAR 以极微小的精度代价换来了吞吐量翻倍,是实际部署的关键使能技术,优于 DeepSeek-MTP。

  • DBS 在不损失收益的前提下进一步提升了效率,TABS 机制在低峰期还能反向提升收入。


5.2 Scaling Law



模型规模方向:从 0.03B 到 0.32B,收入提升从 + 2.13% 单调增长到 + 4.43%,训练损失也持续下降。生成式广告推荐的 Scaling Law 是成立的


推理规模方向:Beam 宽度从 128 增加到 1024,收入从 + 2.33% 提升到 + 4.21%。这意味着更强的推理时搜索能进一步释放模型潜力 —— 这与当前 LLM 领域 Test-time Scaling 的趋势遥相呼应。


5.3 UA-SID 质量



在嵌入质量评估(photo-to-photo recall)中,经过指令微调和共现学习的 UAE 达到了 R@1=0.896,远超基线 QARM(0.541)和原始 Qwen3-VL-7B(0.769)。MGMR 量化将 SID 碰撞率从 85.44% 降至 18.26%,码本利用率提升 3 倍以上。


5.4 商业指标的全面胜利


  • 商业化广告收入 4.2%+

  • 中小广告主投放量提升 17.5%

  • 广告转化率提升 10.17%

  • 低活用户转化率提升 7.28%


基于内容的 SID 带来的更强泛化能力和更实时的索引对冷启动物料的更好支持,实现了平台、广告主、用户的三赢


六、总结与思考


GR4AD 这篇论文的价值,不仅在于它达成了 4.2% 的收入提升这个数字,更在于它系统性地回答了一个关键问题:生成式推荐在广告这个最 "硬核" 的工业场景中,到底应该怎么做?


它的答案是:不要照搬 LLM,要做推荐原生的设计


  • Token 化不能只看内容语义,要把业务信号编码进去(UA-SID + MGMR)。

  • 训练不能只做单点概率生成,要做价值感知的列表级优化(VSL + RSPO)。

  • 推理不能只套用 LLM 加速技巧,要针对 "短序列、多候选、Beam Search" 的推荐特性做专门设计(LazyAR + DBS)。

  • 系统不能离线批处理,要做实时索引、在线学习、闭环反馈的全链路打通。


GR4AD 是生成式推荐走向广告工业核心场景的一个重要里程碑。 快手用超过 4 亿用户的真实流量验证了这条路径的可行性。可以预见,接下来会有更多广告平台跟进这一范式。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


我不太懂技术细节,但我感觉 LazyAR 的思想有点像“分工合作”。让擅长做简单事情的模块去做简单的事情,让擅长做复杂事情的模块去做复杂的事情,这样才能提高整体效率。

这种“分工合作”的思想,在很多领域都有应用。比如说,在软件开发中,可以把一个大型项目分解成多个模块,让不同的团队分别负责不同的模块,这样可以提高开发效率和代码质量。

RSPO 能够显著优于 DPO 和 GRPO,说明了在广告推荐这种高度商业化的场景下,直接优化排序指标的重要性。传统的推荐算法可能会关注单个 item 的点击率或者转化率,但最终的收益是由整个推荐列表决定的。

未来,我觉得可以探索将更多的用户反馈信息融入到强化学习的奖励函数中。比如说,用户在推荐列表上的停留时间、点击深度、购买行为等等,都可以作为奖励信号来引导模型学习。另外,还可以考虑将用户之间的交互信息纳入模型,实现个性化的排序优化。

直接优化排序指标,就像是考试的时候直接瞄准了最终的得分,而不是只关注做对每一道题。虽然做对每一道题也很重要,但最终的目标是拿到高分。

个人觉得,未来可以探索一些更智能的强化学习方法,让模型能够自主地学习如何优化排序指标。比如说,可以尝试使用 meta-learning 的方法,让模型能够快速适应不同的用户和场景,从而实现更好的排序效果。

楼上说得有道理!我补充一点,我认为UA-SID这种设计思路非常值得借鉴。在推荐系统中,我们经常需要在内容理解和商业目标之间做权衡。UA-SID 提供了一个很好的范例,它告诉我们,可以通过精巧的工程设计,将两者融合在一起,而不是简单地做取舍。

不过,这种方法也存在一些挑战。比如,如何选择合适的业务信号进行编码?如何设计有效的hash映射?这些都需要根据具体的业务场景进行深入研究和实验。

这个 LazyAR 简直是“懒人”福音!它的思想非常 clever,把计算量集中在最需要的地方,避免了不必要的浪费。我觉得它在很多序列生成任务中都有应用前景,比如机器翻译、文本摘要等等。

不过,要应用到其他领域,可能需要根据任务的特点进行一些调整。比如说,在机器翻译中,可以考虑将源语言的编码信息延迟注入到解码器的中间层,这样可以帮助解码器更好地理解源语言的含义。