1 场景解析: a.数据探查(数据量的大小,数据缺失或乱码,ETL 操作,字段类型,是否含有目标队列)

b.场景抽象(是通过已有的数据,挖掘出可以应用的业务场景。机器学习主要用来解决的场景包括二分类、多分类、聚类和回归)

c.算法选择(是确定算法范围、多算法尝试和多视角分析寻找最适合自身业务的算法)

2 数据预处理:采样、去噪、归一化(0,1)和数据过滤,把数据挖掘看成做一道菜的话,数据预处   理就是选择和清洗蔬菜的过程,这一步没做好会影响整个菜品的口感.

3.特征工程:是特征抽象(将源数据抽象成算法可以理解的数据)、特征重要性评估、特征衍生(特征衍生的方法来挖掘更有价值的特)和特征降维几个方面(主成分分析。PCA 通过线性映射投影的方法,把高维的数据映射到了低维的空间中,线性判别式分析LDA)

时间戳,二值类问题,多值有序类问题,多值无序类问题(信息阉割),多值无序类问题(One-hot 编码),文本类型,图像或语音数据(先将图像或者语音转化成矩 阵结构).

4.模型搭建,评估,调优
5.结果输出和分析

常规算法

deep learing

反向传播算法又称BP 算法(backpropagation algorithm),是一种监督学习算法 算法的核心思想是求导的链式法则。BP 算法常被用来求解神经网络中的最优化问题,跟 浅层算法的最优化求解不同的地方是BP 算法可以用链式法则对每一层迭代计算梯度.

自动编码(AutoEncoder)的核心思想就是通过训练生成一个函数F,使F(x)约等于x, 也就是得到一个函数使输入和输出尽可能相等.

对机器学习算法和深度学习常见结构有系统学习。常见算法如下:

机器学习算法:

分类算法:KNN,NB,LR,RF,SVM等

聚类算法:K-means,DBSCAN

回归算法:线性回归

文本分析算法:分词算法Hmm,关键词提取算法TF-IDF,主题模型LDA

推荐类算法:协同过滤CF(UCF/ICF)

关系图算法:标签传播,最短路径

 

常用的降维方法:确保向量间的独立性,减少关联 减少计算量 去噪,把对结果没有意义的或意义较小的字段去掉,减少不必要的干扰。 深度学习常见结构: 深度神经网络DNN 卷积神经网络CNN(卷积,下采样,全连接),主要对空间数据的处理,输入层格式统一。 循环神经网络RNN,常用来解决时序行为的问题。输入层格式可以不统一。