1. 概述

特征交叉对于CTR问题的求解有着重要作用,纵观CTR模型的发展可以看出,每一次效果的提升,都伴随着对特征的挖掘,尤其是交叉特征。FM[1]算法在线性模型LR的基础上增加了二阶特征的交叉,对LR效果有着显著的提升;随着深度学习的发展,深度模型天然的特征交叉能力,Google的Wide & Deep[2]通过结合Wide模型的记忆能力和Deep模型的泛化能力,充分利用Deep侧的特征交叉能力,然而由于Wide侧使用的依然是线性模型,依赖于人工特征工程的参与。DeepFM[3]是华为在2017年提出的用于求解CTR问题的深度模型,DeepFM是在Google的Wide & Deep模型的基础上,将FM算法引入到Wide侧,替换掉原始的Wide & Deep模型中的LR模型,可以实现端到端的学习特征的交叉,无需人工特征工程的参与。DeepFM模型一经推出,就受到业界很多公司的关注,并在众多互联网公司的多个场景中落地。

2. 算法原理

2.1. DeepFM的网络结构

DeepFM的网络结构如下图所示:

DeepFM_处理方法


在DeepFM的网络结构中,主要包括四个部分:第一,Embedding层,用于将稀疏的离散特征转换成稠密的特征向量;第二,FM层,用于计算交叉特征,如上图中的左侧部分;第三,DNN部分,与Wide & Deep模型中的Deep侧一致;最后,输出层,融合左侧FM层和右侧DNN部分的输出得到最终的模型输出。

2.2. DeepFM的计算过程

2.2.1. Embedding层

Embedding层的作用是将输入样本中的稀疏特征转化成稠密的特征。假设训练集DeepFM_处理方法_02是由DeepFM_ide_03个样本组成,其中特征DeepFM_处理方法_04是由DeepFM_DNN_05个域(field)的数据集合,每个域对应了一个离散的特征,DeepFM_ide_06是样本标签。在CTR预测问题的训练集中,通常包含了两类特征,分别为:类别特征和连续特征,对于类别特征,处理方法是使用one-hot对其编码,而对于连续特征,处理方法通常有两种,一种是不进行处理,直接使用连续值,第二种是先对其离散化,再用one-hot编码表示。

通过one-hot编码后,每一个样本DeepFM_处理方法_07的特征为DeepFM_DNN_08是一个DeepFM_ide_09维的向量,且DeepFM_处理方法_10,其中DeepFM_DNN_11为特征DeepFM_处理方法_04的第DeepFM_处理方法_13个域,对于每个域,通过Embedding层将该域中的特征由稀疏的向量转换成稠密的向量,其具体的过程由下图所示:

DeepFM_DNN_14

由上图可知,Embedding的过程是针对每个域单独进行的。为描述简单,假设对于第DeepFM_处理方法_13个域DeepFM_DNN_11,假设第DeepFM_处理方法_13个域的维数是DeepFM_机器学习_18,Embedding层的输出为DeepFM_ide_19,维度为DeepFM_DNN_20,假设此处的DeepFM_机器学习_21,从稀疏特征到Embedding输出可以由下图表示:

DeepFM_DNN_22

上述的映射可以由下述的公式表示:

DeepFM_DNN_23

其中DeepFM_处理方法_24DeepFM_深度学习_25的矩阵,上述公式同时可以表示为:

DeepFM_深度学习_26

其中,可以看到:

DeepFM_DNN_27

此处的DeepFM_处理方法_28DeepFM_机器学习_29将在FM中得到体现。

2.2.2. FM部分

FM算法是在2010年提出的具有二阶特征交叉的模型,FM算法模型结构如下图所示:

DeepFM_ide_30

FM模型的表达式为:

DeepFM_DNN_31

其中,DeepFM_深度学习_32。此处的DeepFM_DNN_08针对上图中的输入的域,如第DeepFM_处理方法_34个域Field i。因此,FM部分的表达式为:

DeepFM_深度学习_35

其中,DeepFM_DNN_36DeepFM_机器学习_37

对于上图中有几点说明:

  • 第一:

DeepFM_ide_38部分由上图中的黄色的点直接连接到Addition,其原因是每个域中只有一个值为1,符合one-hot编码,这里没有说到由multi-hot编码的问题;

  • 第二:

针对交叉特征,假设域DeepFM_处理方法_34和域DeepFM_处理方法_13的交叉特征,域DeepFM_处理方法_34的输入为DeepFM_DNN_42,域DeepFM_处理方法_13的输入为DeepFM_机器学习_44,由于是one-hot编码,假设分别是DeepFM_机器学习_45DeepFM_深度学习_46,则域DeepFM_处理方法_34和域DeepFM_处理方法_13的交叉就变成DeepFM_机器学习_49DeepFM_机器学习_50的交叉,此时:

DeepFM_处理方法_51

即为:

DeepFM_ide_52

此时,域DeepFM_处理方法_34和域DeepFM_处理方法_13的Embedding层的输出分别为:

DeepFM_ide_55

DeepFM_DNN_56

其中DeepFM_处理方法_57,因此上述的交叉项就可以写成:

DeepFM_DNN_58

这也就验证了上图中Weight-1 Connection。

2.2.3. Deep部分

与Wide & Deep模型一致,Deep部分是一个传统的DNN模型,其基本的结构如下图所示:

DeepFM_处理方法_59

输入的稀疏特征经过Embedding层后得到稠密的特征表示,该稠密特征可以作为DNN模型的输入:

DeepFM_机器学习_60

其中,DeepFM_深度学习_61是第DeepFM_处理方法_34个域(field)的embedding表示。将DeepFM_DNN_63作为DNN网络的输入,此时网络第DeepFM_深度学习_64层的输出为:

DeepFM_处理方法_65

其中,DeepFM_机器学习_66表示的是网络的层数,DeepFM_处理方法_67是激活函数,DeepFM_深度学习_68DeepFM_深度学习_69分别为模型的权重和偏置。最终,DNN部分的输出为:

DeepFM_DNN_70

其中,DeepFM_机器学习_71为网络的隐含层的层数。

2.2.4. 网络输出

在DeepFM中,分别由左侧的FM模型得到了FM部分的输出DeepFM_深度学习_72和右侧的DNN模型得到了DNN部分的输出DeepFM_ide_73,DeepFM最终的输出为:

DeepFM_处理方法_74

3. 总结

在DeepFM网络中,通过将Wide & Deep模型中的Wide侧模型替换成FM模型,实现自动的交叉特征选择,从而实现无需人工参与就可以通过模型进行端到端的学习,自动学习到各种层级的交叉特征。

参考文献

[1] Rendle S . Factorization Machines[C]// ICDM 2010, The 10th IEEE International Conference on Data Mining, Sydney, Australia, 14-17 December 2010. IEEE, 2010.

[2] Cheng H T, Koc L, Harmsen J, et al. Wide & Deep Learning for Recommender Systems[J]. 2016:7-10.

[3] Guo H, Tang R, Ye Y, et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction[J]. 2017:1725-1731.

[4] CTR预估算法之FM, FFM, DeepFM及实践

[5] 推荐系统遇上深度学习(三)–DeepFM模型理论和实践

[6] tensorflow-DeepFM