深度学习数据增强策略

转载

mob6454cc692b0f 2024-09-03 19:08:44

文章标签 深度学习数据增强策略图的深度遍历函数调用中的参数太多子节点数据深度学习 文章分类 深度学习人工智能

深度学习数据增强策略_深度学习

现在我们正处在一个深度学习时代，CV领域基本上已经被NN所统治，NLP、推荐也有不同程度的大规模应用。似乎很多从业者对风控领域的认知是我们一定不会使用深度学习方法，归根结底是因为它本身是一个黑箱模型，解释性较差。但是个人理解当我们从LR转向XGBoost的时候，解释性其实就已经不复存在了。纵观整个机器学习界，无外乎都是从传统机器学习逐渐过渡到NN的一个过程，个人觉得深度学习在各个领域的普及是迟早的事情。

那么当前深度学习在风控场景都有哪些应用呢？

我觉得基本可以总结为以下这三个子场景：

1）序列数据建模：代表算法 LSTM

2）图谱建模：代表算法 GCN

3）传统特征衍生：代表算法 CNN、XDeepFM

循环神经网络

目前就使用场景来看，与传统风控建模手段区别最大的，莫过于基于RNN的一系列序列模型，不在使用onehot编码或者时间窗口的描述统计特征进行建模，而是使用循环神经网络对时间序列进行拟合，从而学习到一个用户的发展变化。

深度学习数据增强策略_深度学习_02

代表场景主要是拥有时间顺序的序列数据：

B卡
盗号检测
失联模型
文本分类

理论上来说用户在app上的点击数据都可以拿来使用。

卷积神经网络

CNN中的卷积本质上就是利用一个共享参数的过滤器（kernel），通过计算中心像素点以及相邻像素点的加权和来构成feature map实现空间特征的提取，加权系数就是卷积核的权重系数。

代表场景主要是用于拥有拓扑关系的数据上

将可以求和的数据展开成feature-map的样子即可做卷积，从而实现特征交叉，挖掘更深层次的特征

深度学习的另一个非常重要的领域就是在我们的知识图谱中。

图卷积神经网络的前奏-Node2Vec

说GCN之前首先要先知道一个概念叫做Node2Vec，讲Node2Vec之前可能需要先引入一个概念叫做Word2Vec

深度学习数据增强策略_子节点_03

Word2Vec的基本流程如下

深度学习数据增强策略_子节点_04

那我们怎么在图中找到“临近”的节点？如何生成节点序列？

1）广度优先遍历（BFS）

从根节点出发，即下图中的0节点出发

首先访问它的子节点1，之后再访问它的子节点2。

当根节点0的所有子节点访问完了，再访问节点1的子节点，即节点3和节点4

当节点1的所有子节点访问完了，再访问节点2的所有子节点，即节点5和节点6

访问顺序为0-1-2-3-4-5-6

广度优先遍历得到的是结构相似性（structural equivalence）：结构相似性是衡量两个节点在网络中所在的位置和结构的相似性。

深度学习数据增强策略_子节点_05

2）深度优先遍历（DFS）

从根节点0出发

首先访问它的子节点1，然后再访问节点1的子节点，节点3和节点4

再返回访问子节点2，然后再访问节点2的子节点，节点5和节点6

访问顺序为 0-1-3-4-2-5-6

深度优先遍历得到的是同质性（homophily）：通过两个节点的距离来衡量它们之间的相似性。如果两个节点的距离越近，则它们的同质性越高，也就是相似度越大。

深度学习数据增强策略_深度学习数据增强策略_06

那么，有没有可能在某种生成节点序列的过程中同时考虑到homophily和structural equivalence？

Random Walk 随机游走

随机漫步（Random Walk）思想最早由Karl Pearson在1905年提出，它是一种不规则的变动形式，在变动过程当中的每一步都是随机的。假如我们有下面这样一个小的关系网络。

深度学习数据增强策略_图的深度遍历函数调用中的参数太多_07

在加权网络结构图，我们还可以根据权重来设置某节点游走到另外一个节点的概率。

随机游走在生成节点序列中，在一定程度上既可以照顾到homophily，又可以照顾到structural equivalence。但是很难控制两种相似性所占的比重。

node2vec

node2vec 可以改善random walk，更好地反映同质性与结构相似性
以下图为例，选择 t 为初始节点，并引入两个参数 p和q

返回概率参数（Return parameter）p，对应BFS，p控制回到原来节点的概率，如图中从t跳到v以后，有1/p的概率在节点v处再跳回到t
离开概率参数（In outparameter）q，对应DFS，q控制跳到其他节点的概率

深度学习数据增强策略_图的深度遍历函数调用中的参数太多_08

假设现在已经从节点 t 走到节点 v，那么边的权重如所示:

深度学习数据增强策略_数据_09

其中dtx表示节点t到节点x之间的最短路径

通过上面我们可以发现:

q 越大，p越小，结构相似性所占比重越高
p 越大，q越小，同质性所占比重越高

图卷积神经网络（Graphs Convolutional Neural Networks ）

CNN处理的图像或者视频数据中像素点（pixel）是排列成成很整齐的矩阵。与之相对应,科学研究中还有很多Non Euclidean Structure的数据,社交网络、信息网络中有很多类似的结构。

实际上,这样的网络结构(Non Euclidean Structure)就是图论中抽象意义上的拓扑图。因此我们提出GCN.

深度学习数据增强策略_子节点_10

为什么要研究GCN？

CNN无法处理Non Euclidean Structure的数据，学术上的表达是传统的离散卷积（如问题1中所述）在Non Euclidean Structure的数据上无法保持平移不变性。通俗理解就是在拓扑图中每个顶点的相邻顶点数目都可能不同，那么当然无法用一个同样尺寸的卷积核来进行卷积运算。
由于CNN无法处理Non Euclidean Structure的数据，又希望在这样的数据结构（拓扑图）上有效地提取空间特征来进行机器学习，所以GCN成为了研究的重点。
广义上来讲任何数据在赋范空间内都可以建立拓扑关联，谱聚类就是应用了这样的思想（谱聚类（spectral clustering）原理总结）。所以说拓扑连接是一种广义的数据结构，GCN有很大的应用空间。

代表场景是金融知识图谱：

提取客户的关系特征
构建反欺诈模型

因子分解机

对于预测性的系统来说，特征工程起到了至关重要的作用。特征工程中，挖掘交叉特征是至关重要的。交叉特征指的是两个或多个原始特征之间的交叉组合。

传统的风控模型中，挖掘交叉特征主要依靠人工提取，这种做法主要有以下三种缺点：

重要的特征都是与应用场景息息相关的，针对每一种应用场景，工程师们都需要首先花费大量时间和精力深入了解数据的规律之后才能设计、提取出高效的高阶交叉特征，因此人力成本高昂
原始数据中往往包含大量稀疏的特征，交叉特征的维度空间是原始特征维度的乘积，因此很容易带来维度灾难的问题
人工提取的交叉特征无法泛化到未曾在训练样本中出现过的模式中

因此自动学习特征间的交互关系是十分有意义的。

前面提到的几大模块是我这从这几年经手的所有深度学习相关的风控项目中归纳得到的，希望能对其他对深度学习感兴趣的风控从业者有所帮助。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。