理解实际业务场景问题是机器学习的第一步。

2 获取数据 哪些表
不仅如此还要对评估数据(样本数量、特征数量)的量级,

3 特征工程

特征工程包括从原始数据中特征选择,特征提取,特征构建

数据预处理、
缺失值 ,异常值 ,归一化、离散化、缺失值处理

筛选出显著特征、摒弃非显著特征,需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择需要运用特征有效性分析的相关技术,如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。


4 模型训练、诊断与调优
选择模型
训练
根据对算法的理解调节(超)参数,使模型达到最优。
欠拟合,过拟合的调优


反复迭代不断逼近

5 模型验证、误差分析
通过测试数据,验证模型的有效性,通过观察误差样本,
分析误差产生的原因(是参数的问题还是算法选择的问题,是特征的问题还是数据本身的问题 …),往往能使得我们找到提升算法性能的突破点。


6 模型融合
模型融合是把强分类器进行强强联合,变得更强
对于分类任务来说,可以使用投票的方法:
加权投票法

回归
对于回归任务来说,采用的为平均法(Average)
简单平均
加权平均

Bagging
Bagging就是采用有放回的方式进行抽样,用抽样的样本建立子模型,对子模型进行训练,这个过程重复多次,最后进行融合

Boosting
Bagging算法可以并行处理,而Boosting的思想是一种迭代的方法,每一次训练的时候都更加关心分类错误的样例

7 上线运行
这一部分内容主要跟工程实现的相关性比较大。工程上是结果导向,模型在线上运行的效果直接决定模型的成败。

8