新闻中心

一文总结特征增强&个性化在CTR预估中的经典方法和效果对比

2023-12-15
浏览次数:
返回列表

在ctr预估中,主流都采用特征embedding+mlp的方式,其中特征非常关键。然而对于相同的特征,在不同的样本中,表征是相同的,这种方式输入到下游模型,会限制模型的表达能力。

为了解决这个问题,CTR预估领域提出了一系列相关工作,被称为特征增强模块。特征增强模块根据不同的样本,对embedding层的输出结果进行一次矫正,以适应不同样本的特征表示,提升模型的表达能力。

最近,复旦大学和微软亚洲研究院合作发布了一篇关于特征增强工作的综述,对比了不同特征增强模块的实现方法及其效果。现在,我们来介绍一下几种特征增强模块的实现方法,以及本文所进行的相关对比实验

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一文总结特征增强&个性化在CTR预估中的经典方法和效果对比论文标题:A Comprehensive Summarization and Evaluation of Feature Refinement Modules for CTR Prediction

下载地址:https://arxiv.org/pdf/2311.04625v1.pdf

1、特征增强建模思路

特征增强模块,旨在提升CTR预估模型中Embedding层的表达能力,实现相同特征在不同样本下的表征差异化。特征增强模块可以用下面这个统一公式表达,输入原始的Embedding,经过一个函数后,生成这个样本个性化的Embedding。

一文总结特征增强&个性化在CTR预估中的经典方法和效果对比图片

这类方法的大致思路为,在得到初始的每个特征的embedding后,使用样本本身的表征,对特征embedding做一个变换,得到当前样本的个性化embedding。下面给大家介绍一些经典的特征增强模块建模方法。

2、特征增强经典方法

An Input-aware Factorization Machine for Sparse Prediction(IJCAI 2019)这篇文章在embedding层之后增加了一个reweight层,将样本初始embedding输入到一个MLP中得到一个表征样本的向量,使用softmax进行归一化。Softmax后的每个元素对应一个特征,代表这个特征的重要程度,使用这个softmax结果和每个对应特征的初始embedding相乘,实现样本粒度的特征embedding加权。

一文总结特征增强&个性化在CTR预估中的经典方法和效果对比图片

FiBiNET: 结合特征重要性和二阶特征交互的点击率预测模型(RecSys 2019)也采用了类似的思路。该模型为每个样本学习了一个特征的个性化权重。整个过程分为挤压(squeeze)、提取(extraction)和重新加权(reweight)三个步骤。在挤压阶段,通过池化方法将每个特征的嵌入向量得到一个统计标量。在提取阶段,将这些标量输入到多层感知机(MLP)中,得到每个特征的权重。最后,将这些权重与每个特征的嵌入向量相乘,得到加权后的嵌入结果,相当于在样本级别上进行特征重要性的筛选

VALL-E VALL-E

VALL-E是一种用于文本到语音生成 (TTS) 的语言建模方法

VALL-E 134 查看详情 VALL-E

一文总结特征增强&个性化在CTR预估中的经典方法和效果对比图片

A Dual Input-aware Factorization Machine for CTR Prediction(IJCAI 2025)和上一篇文章类似,也是利用self-attention对特征进行一层增强。整体分为vector-wise和bit-wise两个模块。Vector-wise将每个特征的embedding当成序列中的一个元素,输入到Transformer中得到融合后的特征表示;bit-wise部分使用多层MLP对原始特征进行映射。两部分的输入结果相加后,得到每个特征元素的权重,乘到对应的原始特征的每一位上,得到增强后的特征。

一文总结特征增强&个性化在CTR预估中的经典方法和效果对比图片

GateNet:增强门控深度网络用于点击率预测(2025)利用每个特征的初始嵌入向量通过一个MLP和sigmoid函数生成其独立的特征权重分数,同时使用MLP将所有特征映射为按位的权重分数,将两者结合起来对输入特征进行加权。除了特征层外,在MLP的隐藏层中,也利用类似的方法对每个隐藏层的输入进行加权

一文总结特征增强&个性化在CTR预估中的经典方法和效果对比图片

Interpretable Click-Through Rate Prediction through Hierarchical Attention(WSDM 2025)也是利用self-attention实现特征的转换,但是增加了高阶特征的生成。这里面使用层次self-attention,每一层的self-attention以上一层sefl-attention的输出作为输入,每一层增加了一阶高阶特征组合,实现层次多阶特征提取。具体来说,每一层进行self-attention后,将生成的新特征矩阵经过softmax得到每个特征的权重,根据权重对原始特征加权新的特征,再和原始特征进行一次点积,实现增加一阶的特征交叉。

一文总结特征增强&个性化在CTR预估中的经典方法和效果对比图片

ContextNet: A Click-Through Rate Prediction Framework Using Contextual information to Refine Feature Embedding(2025)也是类似的做法,使用一个MLP将所有特征映射成一个每个特征embedding尺寸的维度,对原始特征做一个缩放,文中针对每个特征使用了个性化的MLP参数。通过这种方式,利用样本中的其他特征作为上下位增强每个特征。

一文总结特征增强&个性化在CTR预估中的经典方法和效果对比图片

Enhancing CTR Prediction with Context-Aware Feature Representation Learning(SIGIR 2025)采用了self-attention进行特征增强,对于一组输入特征,每个特征对于其他特征的影响程度是不同的,通过self-attention,对每个特征的embedding进行一次self-attention,实现样本内特征间的信息交互。除了特征间的交互,文中也利用MLP进行bit级别的信息交互。上述生成的新embedding,会通过一个gate网络,和原始的embedding进行融合,得到最终refine后的特征表示。

一文总结特征增强&个性化在CTR预估中的经典方法和效果对比图片

3、实验效果

进行了各类特征增强方法的效果对比后,得出整体结论:在众多特征增强模块中,GFRL、FRNet-V、FRNetB表现最优,且效果优于其他特征增强方法

一文总结特征增强&个性化在CTR预估中的经典方法和效果对比图片

以上就是一文总结特征增强&个性化在CTR预估中的经典方法和效果对比的详细内容,更多请关注其它相关文章!


# CTR  # embedding  # 一文  # 三大  # 增加了  # 采用了  # 做一个  # 门控  # 模块  # 直通车关键词排名算法  # 宣化区网站建设  # 珠海手机网站的建设  # 龙城中文网站推广  # 阿勒泰420seo-bk1066  # 鞍山网站建设推广公司  # 绥化seo工具成功案例  # 网站渲染太慢优化  # 深圳网站推广模板  # 博客软文营销推广  # 高阶  # 最好用  # 开源  # 点击率 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 春运抢票可以抢几次啊  win10系统如何打开cmd命令  mac 如何启动命令行模式  苹果手机16新款颜色有哪些  如何提高import命令的性能  win10如何打开dos命令窗口大小  vivo手机爱奇艺怎么投屏到电视操作步骤  怎么在爱奇艺中投屏到电视最新方法  为什么夸克流畅播失败  折叠屏有哪些手机  电焊机power灯亮是什么意思  j*a map数组怎么取值  如何查询固态硬盘寿命  j*a中怎么截取数组  为什么进行域名解析  单片机怎么控制内功率  固态硬盘如何查看盘符  酷狗音乐pc版的每日推荐在哪 酷狗音乐PC版每日推荐查找指南  汽车排量是什么意思  电动车power灯亮是什么意思  折叠屏手机选择哪个好  单片机计时程序怎么写  怎么批量烧写单片机  空调主板单片机怎么拆开  ts什么意思  如何固态硬盘4k对齐  索尼type-c接口是什么  如何知道固态硬盘  汽车的type-c接口是什么  宝马x5仪表盘上边有power是什么意思  宵衣旰食是什么意思  win10电脑如何使用命令提示符  命令行如何运行j*a  单片机软件keil怎么运行  直接gmV是什么意思?直接GMV:定义和概念  typescript性能如何  市盈率是负数是什么意思  跑步机power键是什么意思  华为使用nfc功能是什么意思  youtube受限模式是什么_youtube受限模式是什么意思  如何清理固态硬盘  液位传感器power是什么意思  电脑5G怎么上传手机  如何测试固态硬盘速度  65寸电视长宽多少厘米  华为的type-c接口是什么接口  typescript变量是什么  命令指示符如何打开盘符  征信信誉不好如何恢复 如何修复不良征信方法  如何查看邮件域名解析 

搜索