CTR预估中特征增强与个性化方法总结与效果对比

DatapiTHU · 2024 年1 月 5 日 09:14

总结了多种CTR预估中特征增强的经典方法，并对比了它们的效果，发现GFRL、FRNet-V和FRNetB表现最佳。

原文标题：一文总结特征增强&个性化在CTR预估中的经典方法和效果对比

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247627911&idx=1&sn=fa9789d8dac76345ca764d209b802e73&

冷月清谈：

本文总结了多种用于CTR预估的特征增强模块，这些模块旨在提升模型对不同样本中相同特征的表达能力。特征增强模块的核心思想是在获取特征的初始embedding后，利用样本信息进行调整，生成个性化的embedding表示。

几种经典的特征增强方法包括：

1. 基于权重的特征增强：例如，利用MLP学习每个样本的特征权重，然后将权重与初始embedding相乘，实现特征的个性化加权，代表方法有IFM、FiBiNET等。

2. 基于self-attention的特征增强：利用self-attention机制捕捉特征之间的相互关系，并根据样本上下文信息调整特征表示，代表方法有DIFM、HA、CARFL等。

3. 基于门控机制的特征增强：例如GateNet，使用MLP和sigmoid函数生成特征权重，并结合bit-wise权重对特征进行加权。

4. 基于上下文信息的特征增强：例如ContextNet，利用MLP对所有特征进行映射，并对原始特征进行缩放，利用样本中的其他特征增强每个特征。

实验结果表明，GFRL、FRNet-V和FRNetB等方法在CTR预估中表现最佳，效果优于其他特征增强方法。

怜星夜思：

1、除了文中提到的方法，还有哪些其他的特征增强方法？
2、这些特征增强方法的计算复杂度如何？在实际应用中如何选择合适的方法？
3、特征增强方法在哪些类型的推荐系统中效果更好？

原文内容

本文约1600字，建议阅读5分钟

        本文给大家介绍一下几种特征增强模块的实现方法，以及本文进行的相关对比实验。

在CTR预估中，主流都采用特征embedding+MLP的方式，其中特征非常关键。然而对于相同的特征，在不同的样本中，表征是相同的，这种方式输入到下游模型，会限制模型的表达能力。

为了解决这个问题，CTR预估领域提出了一系列相关工作，被称为特征增强模块。特征增强模块根据不同的样本，对embedding层的输出结果进行一次矫正，以适应不同样本的特征表示，提升模型的表达能力。

最近，复旦大学和微软亚研院联合发布了一篇特征增强工作的总结，对比了不同特征增强模块实现方法的效果。下面给大家介绍一下几种特征增强模块的实现方法，以及本文进行的相关对比实验。

论文标题：

A Comprehensive Summarization and Evaluation of Feature Refinement Modules for CTR Prediction

下载地址：

https://arxiv.org/pdf/2311.04625v1.pdf

1 特征增强建模思路

特征增强模块，旨在提升CTR预估模型中Embedding层的表达能力，实现相同特征在不同样本下的表征差异化。特征增强模块可以用下面这个统一公式表达，输入原始的Embedding，经过一个函数后，生成这个样本个性化的Embedding。

这类方法的大致思路为，在得到初始的每个特征的embedding后，使用样本本身的表征，对特征embedding做一个变换，得到当前样本的个性化embedding。下面给大家介绍一些经典的特征增强模块建模方法。

2 特征增强经典方法

An Input-aware Factorization Machine for Sparse Prediction（IJCAI 2019）这篇文章在embedding层之后增加了一个reweight层，将样本初始embedding输入到一个MLP中得到一个表征样本的向量，使用softmax进行归一化。Softmax后的每个元素对应一个特征，代表这个特征的重要程度，使用这个softmax结果和每个对应特征的初始embedding相乘，实现样本粒度的特征embedding加权。

FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction（RecSys 2019）也是类似的思路，为每个样本学习一个特征的个性化权重。整个过程分为squeeze、extraction、reweight三个步骤。在squeeze中，将每个特征embedding通过pooling得到一个其对应的统计标量。在extraction中，将这些标量输入到MLP中，得到每个特征的权重。最后，使用这个权重和每个特征embedding向量相乘，得到加权后的embedding结果，相当于在样本粒度做一个特征重要性筛选。

A Dual Input-aware Factorization Machine for CTR Prediction（IJCAI 2020）和上一篇文章类似，也是利用self-attention对特征进行一层增强。整体分为vector-wise和bit-wise两个模块。Vector-wise将每个特征的embedding当成序列中的一个元素，输入到Transformer中得到融合后的特征表示；bit-wise部分使用多层MLP对原始特征进行映射。两部分的输入结果相加后，得到每个特征元素的权重，乘到对应的原始特征的每一位上，得到增强后的特征。

GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction（2020）利用每个特征的初始embedding过一个MLP和sigmoid函数生成其独立的特征权重分，同时也使用MLP对所有特征进行映射生成bit-wise的权重分，两者融合对输入特征进行加权。除了特征层外，在MLP的隐层，也利用类似的方法，对每个隐层的输入进行加权。

Interpretable Click-Through Rate Prediction through Hierarchical Attention（WSDM 2020）也是利用self-attention实现特征的转换，但是增加了高阶特征的生成。这里面使用层次self-attention，每一层的self-attention以上一层sefl-attention的输出作为输入，每一层增加了一阶高阶特征组合，实现层次多阶特征提取。具体来说，每一层进行self-attention后，将生成的新特征矩阵经过softmax得到每个特征的权重，根据权重对原始特征加权新的特征，再和原始特征进行一次点积，实现增加一阶的特征交叉。

ContextNet: A Click-Through Rate Prediction Framework Using Contextual information to Refine Feature Embedding（2021）也是类似的做法，使用一个MLP将所有特征映射成一个每个特征embedding尺寸的维度，对原始特征做一个缩放，文中针对每个特征使用了个性化的MLP参数。通过这种方式，利用样本中的其他特征作为上下位增强每个特征。

Enhancing CTR Prediction with Context-Aware Feature Representation Learning（SIGIR 2022）采用了self-attention进行特征增强，对于一组输入特征，每个特征对于其他特征的影响程度是不同的，通过self-attention，对每个特征的embedding进行一次self-attention，实现样本内特征间的信息交互。除了特征间的交互，文中也利用MLP进行bit级别的信息交互。上述生成的新embedding，会通过一个gate网络，和原始的embedding进行融合，得到最终refine后的特征表示。

3 实验效果

文中进行了各类特征增强方法的效果对比，整体结论为，在众多特征增强模块中，GFRL、FRNet-V、FRNetB 表现的最好，并且效果要优于其他的特征增强方法。

编辑：王菁‍‍‍

‍‍‍‍‍‍

HarvestMoon921 · 2024 年12 月 11 日 17:38

针对“特征增强方法在哪些类型的推荐系统中效果更好？”这个问题，我感觉在电商、新闻等个性化推荐场景中，特征增强方法应该会有比较好的效果，因为这些场景中用户兴趣差异比较大，需要对特征进行个性化的调整。

Strider82w · 2024 年12 月 15 日 05:27

不过，特征增强方法在一些简单的推荐场景中，比如热门推荐，可能提升就没那么明显了，毕竟热门物品的点击率本来就高。

Halo30p · 2024 年12 月 15 日 12:02

实际应用中，可以先用一些简单的特征增强方法，比如IFM，快速验证一下效果。如果效果提升明显，再考虑更复杂的GFRL或self-attention方法，个人经验哈。

Blaze03m · 2024 年12 月 15 日 13:07

我觉得可以考虑一些基于图神经网络的方法，比如利用用户历史行为构建图，然后用GNN学习特征表示，这样可以更好地捕捉用户兴趣和特征之间的关系。

VioletRaven051 · 2024 年12 月 15 日 14:30

还可以尝试一些强化学习的方法，比如将特征增强模块看作一个agent，通过与环境交互学习如何更好地调整特征表示，从而提高CTR预估的准确性。

Arcane69f · 2024 年12 月 15 日 16:01

我觉得在一些长尾物品推荐或者冷启动场景下，特征增强应该也能发挥作用，它或许能够更好地利用有限的用户行为数据。

Haven14j · 2024 年12 月 15 日 17:51

是不是还可以结合知识图谱，用知识图谱来补充特征的信息，或者说用知识图谱来指导特征的增强过程？

SilverWolf359 · 2024 年12 月 17 日 12:03

对于“除了文中提到的方法，还有哪些其他的特征增强方法？”这个问题，我觉得Transformer-based的方法计算复杂度比较高，像FiBiNET这种基于特征重要性的方法相对简单一些。选择的时候要根据具体的应用场景和数据规模来权衡效果和效率。

ShimmeringSeal612 · 2024 年12 月 17 日 18:48

除了计算复杂度，还要考虑模型的可解释性。有些场景下，我们需要理解模型为什么做出某个预测，这时候可解释性强的特征增强方法就更有优势。