机器学习开发流程

1.首先掌握各类分析方法的特性,不仅需要了解如何使用各类算法,还要了解其实现原理,这样在参数优化和模型改进时可以减少无效调整
2.在选择模型之前,要对数据进行探索性分析,了解数据类型和数据特征,发现数据之间的关系,可应用箱图,直方图,散点图等
3.在模型选择中,可以开始选出可能的模型几个,结合业务选择自变量,选择模型后,比较不同模型的拟合程度,可以统计显著性参数、R平方等,在单个模型中可以使用交叉验证分析,反复调整参数,误差分析(数据质量、算法选择、特征选择、参数设置)

机器学习基本方法

统计分析

1.描述性统计
2.推断性统计:
参数估计:对样本整体中某个数值进行估计,如推断总体平均值
假设检验:通过对所做的推断进行验证

概率分布

T-分布,卡方分布,F-分布
T-分布:根据小样本来估计呈正态分布且方差未知的总体的均值,基于在卡方分布的得到的值
机器学习笔记_假设检验
其中n为自由度
卡方分布:
机器学习笔记_特征选择_02
所服从的分布是自由度为n(独立正态随机变量的个数)的卡方分布。
则卡方随机变量的概率密度函数:
机器学习笔记_假设检验_03
F分布:
机器学习笔记_数据_04

参数估计

假设检验

特征工程

特征选取:构造新的特征
特征选择:从数据本身中找到有用的特征

处理数值特征:

最大最小标准化,Z-分数标准化

处理分类特征:

用数字替换每个值(one-hot),创建虚拟变量(编码矩阵)

处理时间特征:

时间序列分析

处理文本特征:

创建单词计数向量,TF-IDF

处理缺失数据:

删除包含缺失数据的特征。移除包含缺失数据的行,用重要数据代替缺失值(平均值,中值)

降维:

Seaborn

分布图

seaborn.distplot(dist_data_1,bins=10)

机器学习笔记_数据_05

双变量分布

seaborn.jointplot(x=dist_data_2,y=dist_data_1)

机器学习笔记_数据_06