DeepFM

原创

wx64898f817b745 2023-06-14 19:24:40 ©著作权

文章标签 机器学习深度学习 ide DNN 处理方法 文章分类 办公效率

©著作权归作者所有：来自51CTO博客作者wx64898f817b745的原创作品，请联系作者获取转载授权，否则将追究法律责任

1. 概述

特征交叉对于CTR问题的求解有着重要作用，纵观CTR模型的发展可以看出，每一次效果的提升，都伴随着对特征的挖掘，尤其是交叉特征。FM[1]算法在线性模型LR的基础上增加了二阶特征的交叉，对LR效果有着显著的提升；随着深度学习的发展，深度模型天然的特征交叉能力，Google的Wide & Deep[2]通过结合Wide模型的记忆能力和Deep模型的泛化能力，充分利用Deep侧的特征交叉能力，然而由于Wide侧使用的依然是线性模型，依赖于人工特征工程的参与。DeepFM[3]是华为在2017年提出的用于求解CTR问题的深度模型，DeepFM是在Google的Wide & Deep模型的基础上，将FM算法引入到Wide侧，替换掉原始的Wide & Deep模型中的LR模型，可以实现端到端的学习特征的交叉，无需人工特征工程的参与。DeepFM模型一经推出，就受到业界很多公司的关注，并在众多互联网公司的多个场景中落地。

2. 算法原理

2.1. DeepFM的网络结构

DeepFM的网络结构如下图所示：

DeepFM_处理方法

在DeepFM的网络结构中，主要包括四个部分：第一，Embedding层，用于将稀疏的离散特征转换成稠密的特征向量；第二，FM层，用于计算交叉特征，如上图中的左侧部分；第三，DNN部分，与Wide & Deep模型中的Deep侧一致；最后，输出层，融合左侧FM层和右侧DNN部分的输出得到最终的模型输出。

2.2. DeepFM的计算过程

2.2.1. Embedding层

Embedding层的作用是将输入样本中的稀疏特征转化成稠密的特征。假设训练集 $DeepFM_处理方法_02$ 是由 $DeepFM_ide_03$ 个样本组成，其中特征 $DeepFM_处理方法_04$ 是由 $DeepFM_DNN_05$ 个域（field）的数据集合，每个域对应了一个离散的特征， $DeepFM_ide_06$ 是样本标签。在CTR预测问题的训练集中，通常包含了两类特征，分别为：类别特征和连续特征，对于类别特征，处理方法是使用one-hot对其编码，而对于连续特征，处理方法通常有两种，一种是不进行处理，直接使用连续值，第二种是先对其离散化，再用one-hot编码表示。

通过one-hot编码后，每一个样本 $DeepFM_处理方法_07$ 的特征为 $DeepFM_DNN_08$ 是一个 $DeepFM_ide_09$ 维的向量，且 $DeepFM_处理方法_10$ ，其中 $DeepFM_DNN_11$ 为特征 $DeepFM_处理方法_04$ 的第 $DeepFM_处理方法_13$ 个域，对于每个域，通过Embedding层将该域中的特征由稀疏的向量转换成稠密的向量，其具体的过程由下图所示：

DeepFM_DNN_14

由上图可知，Embedding的过程是针对每个域单独进行的。为描述简单，假设对于第 $DeepFM_处理方法_13$ 个域 $DeepFM_DNN_11$ ，假设第 $DeepFM_处理方法_13$ 个域的维数是 $DeepFM_机器学习_18$ ，Embedding层的输出为 $DeepFM_ide_19$ ，维度为 $DeepFM_DNN_20$ ，假设此处的 $DeepFM_机器学习_21$ ，从稀疏特征到Embedding输出可以由下图表示：

DeepFM_DNN_22

上述的映射可以由下述的公式表示：

$DeepFM_DNN_23$

其中 $DeepFM_处理方法_24$ 为 $DeepFM_深度学习_25$ 的矩阵，上述公式同时可以表示为：

$DeepFM_深度学习_26$

其中，可以看到：

$DeepFM_DNN_27$

此处的 $DeepFM_处理方法_28$ 至 $DeepFM_机器学习_29$ 将在FM中得到体现。

2.2.2. FM部分

FM算法是在2010年提出的具有二阶特征交叉的模型，FM算法模型结构如下图所示：

DeepFM_ide_30

FM模型的表达式为：

$DeepFM_DNN_31$

其中， $DeepFM_深度学习_32$ 。此处的 $DeepFM_DNN_08$ 针对上图中的输入的域，如第 $DeepFM_处理方法_34$ 个域Field i。因此，FM部分的表达式为：

$DeepFM_深度学习_35$

其中， $DeepFM_DNN_36$ ， $DeepFM_机器学习_37$ 。

对于上图中有几点说明：

第一：

$DeepFM_ide_38$ 部分由上图中的黄色的点直接连接到Addition，其原因是每个域中只有一个值为1，符合one-hot编码，这里没有说到由multi-hot编码的问题；

第二：

针对交叉特征，假设域 $DeepFM_处理方法_34$ 和域 $DeepFM_处理方法_13$ 的交叉特征，域 $DeepFM_处理方法_34$ 的输入为 $DeepFM_DNN_42$ ，域 $DeepFM_处理方法_13$ 的输入为 $DeepFM_机器学习_44$ ，由于是one-hot编码，假设分别是 $DeepFM_机器学习_45$ 和 $DeepFM_深度学习_46$ ，则域 $DeepFM_处理方法_34$ 和域 $DeepFM_处理方法_13$ 的交叉就变成 $DeepFM_机器学习_49$ 和 $DeepFM_机器学习_50$ 的交叉，此时：

$DeepFM_处理方法_51$

即为：

$DeepFM_ide_52$

此时，域 $DeepFM_处理方法_34$ 和域 $DeepFM_处理方法_13$ 的Embedding层的输出分别为：

$DeepFM_ide_55$

$DeepFM_DNN_56$

其中 $DeepFM_处理方法_57$ ，因此上述的交叉项就可以写成：

$DeepFM_DNN_58$

这也就验证了上图中Weight-1 Connection。

2.2.3. Deep部分

与Wide & Deep模型一致，Deep部分是一个传统的DNN模型，其基本的结构如下图所示：

DeepFM_处理方法_59

输入的稀疏特征经过Embedding层后得到稠密的特征表示，该稠密特征可以作为DNN模型的输入：

$DeepFM_机器学习_60$

其中， $DeepFM_深度学习_61$ 是第 $DeepFM_处理方法_34$ 个域（field）的embedding表示。将 $DeepFM_DNN_63$ 作为DNN网络的输入，此时网络第 $DeepFM_深度学习_64$ 层的输出为：

$DeepFM_处理方法_65$

其中， $DeepFM_机器学习_66$ 表示的是网络的层数， $DeepFM_处理方法_67$ 是激活函数， $DeepFM_深度学习_68$ 和 $DeepFM_深度学习_69$ 分别为模型的权重和偏置。最终，DNN部分的输出为：

$DeepFM_DNN_70$

其中， $DeepFM_机器学习_71$ 为网络的隐含层的层数。

2.2.4. 网络输出

在DeepFM中，分别由左侧的FM模型得到了FM部分的输出 $DeepFM_深度学习_72$ 和右侧的DNN模型得到了DNN部分的输出 $DeepFM_ide_73$ ，DeepFM最终的输出为：

$DeepFM_处理方法_74$

3. 总结

在DeepFM网络中，通过将Wide & Deep模型中的Wide侧模型替换成FM模型，实现自动的交叉特征选择，从而实现无需人工参与就可以通过模型进行端到端的学习，自动学习到各种层级的交叉特征。

参考文献

[1] Rendle S . Factorization Machines[C]// ICDM 2010, The 10th IEEE International Conference on Data Mining, Sydney, Australia, 14-17 December 2010. IEEE, 2010.

[2] Cheng H T, Koc L, Harmsen J, et al. Wide & Deep Learning for Recommender Systems[J]. 2016:7-10.

[3] Guo H, Tang R, Ye Y, et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction[J]. 2017:1725-1731.

[4] CTR预估算法之FM, FFM, DeepFM及实践

[5] 推荐系统遇上深度学习(三)–DeepFM模型理论和实践

[6] tensorflow-DeepFM

上一篇：liblbfgs中L-BFGS算法的实现

下一篇：【数据结构与算法面试题】二叉查找树转换成双向链表

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯