CTR预估中特征增强与个性化方法总结与效果对比

总结了多种CTR预估中特征增强的经典方法,并对比了它们的效果,发现GFRL、FRNet-V和FRNetB表现最佳。

原文标题:一文总结特征增强&个性化在CTR预估中的经典方法和效果对比

原文作者:数据派THU

冷月清谈:

本文总结了多种用于CTR预估的特征增强模块,这些模块旨在提升模型对不同样本中相同特征的表达能力。特征增强模块的核心思想是在获取特征的初始embedding后,利用样本信息进行调整,生成个性化的embedding表示。

几种经典的特征增强方法包括:

1. 基于权重的特征增强:例如,利用MLP学习每个样本的特征权重,然后将权重与初始embedding相乘,实现特征的个性化加权,代表方法有IFM、FiBiNET等。

2. 基于self-attention的特征增强:利用self-attention机制捕捉特征之间的相互关系,并根据样本上下文信息调整特征表示,代表方法有DIFM、HA、CARFL等。

3. 基于门控机制的特征增强:例如GateNet,使用MLP和sigmoid函数生成特征权重,并结合bit-wise权重对特征进行加权。

4. 基于上下文信息的特征增强:例如ContextNet,利用MLP对所有特征进行映射,并对原始特征进行缩放,利用样本中的其他特征增强每个特征。

实验结果表明,GFRL、FRNet-V和FRNetB等方法在CTR预估中表现最佳,效果优于其他特征增强方法。

怜星夜思:

1、除了文中提到的方法,还有哪些其他的特征增强方法?
2、这些特征增强方法的计算复杂度如何?在实际应用中如何选择合适的方法?
3、特征增强方法在哪些类型的推荐系统中效果更好?

原文内容

图片

本文约1600字,建议阅读5分钟

本文给大家介绍一下几种特征增强模块的实现方法,以及本文进行的相关对比实验。

在CTR预估中,主流都采用特征embedding+MLP的方式,其中特征非常关键。然而对于相同的特征,在不同的样本中,表征是相同的,这种方式输入到下游模型,会限制模型的表达能力。


为了解决这个问题,CTR预估领域提出了一系列相关工作,被称为特征增强模块。特征增强模块根据不同的样本,对embedding层的输出结果进行一次矫正,以适应不同样本的特征表示,提升模型的表达能力。

最近,复旦大学和微软亚研院联合发布了一篇特征增强工作的总结,对比了不同特征增强模块实现方法的效果。下面给大家介绍一下几种特征增强模块的实现方法,以及本文进行的相关对比实验。


论文标题:

A Comprehensive Summarization and Evaluation of Feature Refinement Modules for CTR Prediction

下载地址:

https://arxiv.org/pdf/2311.04625v1.pdf


特征增强建模思路

特征增强模块,旨在提升CTR预估模型中Embedding层的表达能力,实现相同特征在不同样本下的表征差异化。特征增强模块可以用下面这个统一公式表达,输入原始的Embedding,经过一个函数后,生成这个样本个性化的Embedding。

图片

这类方法的大致思路为,在得到初始的每个特征的embedding后,使用样本本身的表征,对特征embedding做一个变换,得到当前样本的个性化embedding。下面给大家介绍一些经典的特征增强模块建模方法。

特征增强经典方法

An Input-aware Factorization Machine for Sparse Prediction(IJCAI 2019)这篇文章在embedding层之后增加了一个reweight层,将样本初始embedding输入到一个MLP中得到一个表征样本的向量,使用softmax进行归一化。Softmax后的每个元素对应一个特征,代表这个特征的重要程度,使用这个softmax结果和每个对应特征的初始embedding相乘,实现样本粒度的特征embedding加权。


FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction(RecSys 2019)也是类似的思路,为每个样本学习一个特征的个性化权重。整个过程分为squeeze、extraction、reweight三个步骤。在squeeze中,将每个特征embedding通过pooling得到一个其对应的统计标量。在extraction中,将这些标量输入到MLP中,得到每个特征的权重。最后,使用这个权重和每个特征embedding向量相乘,得到加权后的embedding结果,相当于在样本粒度做一个特征重要性筛选。


A Dual Input-aware Factorization Machine for CTR Prediction(IJCAI 2020)和上一篇文章类似,也是利用self-attention对特征进行一层增强。整体分为vector-wise和bit-wise两个模块。Vector-wise将每个特征的embedding当成序列中的一个元素,输入到Transformer中得到融合后的特征表示;bit-wise部分使用多层MLP对原始特征进行映射。两部分的输入结果相加后,得到每个特征元素的权重,乘到对应的原始特征的每一位上,得到增强后的特征。


GateNet: Gating-Enhanced Deep Network for Click-Through Rate Prediction(2020)利用每个特征的初始embedding过一个MLP和sigmoid函数生成其独立的特征权重分,同时也使用MLP对所有特征进行映射生成bit-wise的权重分,两者融合对输入特征进行加权。除了特征层外,在MLP的隐层,也利用类似的方法,对每个隐层的输入进行加权。


Interpretable Click-Through Rate Prediction through Hierarchical Attention(WSDM 2020)也是利用self-attention实现特征的转换,但是增加了高阶特征的生成。这里面使用层次self-attention,每一层的self-attention以上一层sefl-attention的输出作为输入,每一层增加了一阶高阶特征组合,实现层次多阶特征提取。具体来说,每一层进行self-attention后,将生成的新特征矩阵经过softmax得到每个特征的权重,根据权重对原始特征加权新的特征,再和原始特征进行一次点积,实现增加一阶的特征交叉。


ContextNet: A Click-Through Rate Prediction Framework Using Contextual information to Refine Feature Embedding(2021)也是类似的做法,使用一个MLP将所有特征映射成一个每个特征embedding尺寸的维度,对原始特征做一个缩放,文中针对每个特征使用了个性化的MLP参数。通过这种方式,利用样本中的其他特征作为上下位增强每个特征。


Enhancing CTR Prediction with Context-Aware Feature Representation Learning(SIGIR 2022)采用了self-attention进行特征增强,对于一组输入特征,每个特征对于其他特征的影响程度是不同的,通过self-attention,对每个特征的embedding进行一次self-attention,实现样本内特征间的信息交互。除了特征间的交互,文中也利用MLP进行bit级别的信息交互。上述生成的新embedding,会通过一个gate网络,和原始的embedding进行融合,得到最终refine后的特征表示。


实验效果

文中进行了各类特征增强方法的效果对比,整体结论为,在众多特征增强模块中,GFRL、FRNet-V、FRNetB 表现的最好,并且效果要优于其他的特征增强方法。


编辑:王菁

针对“特征增强方法在哪些类型的推荐系统中效果更好?”这个问题,我感觉在电商、新闻等个性化推荐场景中,特征增强方法应该会有比较好的效果,因为这些场景中用户兴趣差异比较大,需要对特征进行个性化的调整。

不过,特征增强方法在一些简单的推荐场景中,比如热门推荐,可能提升就没那么明显了,毕竟热门物品的点击率本来就高。

实际应用中,可以先用一些简单的特征增强方法,比如IFM,快速验证一下效果。如果效果提升明显,再考虑更复杂的GFRL或self-attention方法,个人经验哈。

我觉得可以考虑一些基于图神经网络的方法,比如利用用户历史行为构建图,然后用GNN学习特征表示,这样可以更好地捕捉用户兴趣和特征之间的关系。

还可以尝试一些强化学习的方法,比如将特征增强模块看作一个agent,通过与环境交互学习如何更好地调整特征表示,从而提高CTR预估的准确性。

我觉得在一些长尾物品推荐或者冷启动场景下,特征增强应该也能发挥作用,它或许能够更好地利用有限的用户行为数据。

是不是还可以结合知识图谱,用知识图谱来补充特征的信息,或者说用知识图谱来指导特征的增强过程?

对于“除了文中提到的方法,还有哪些其他的特征增强方法?”这个问题,我觉得Transformer-based的方法计算复杂度比较高,像FiBiNET这种基于特征重要性的方法相对简单一些。选择的时候要根据具体的应用场景和数据规模来权衡效果和效率。

除了计算复杂度,还要考虑模型的可解释性。有些场景下,我们需要理解模型为什么做出某个预测,这时候可解释性强的特征增强方法就更有优势。