机器学习开发流程
1.首先掌握各类分析方法的特性,不仅需要了解如何使用各类算法,还要了解其实现原理,这样在参数优化和模型改进时可以减少无效调整
2.在选择模型之前,要对数据进行探索性分析,了解数据类型和数据特征,发现数据之间的关系,可应用箱图,直方图,散点图等
3.在模型选择中,可以开始选出可能的模型几个,结合业务选择自变量,选择模型后,比较不同模型的拟合程度,可以统计显著性参数、R平方等,在单个模型中可以使用交叉验证分析,反复调整参数,误差分析(数据质量、算法选择、特征选择、参数设置)
机器学习基本方法
统计分析
1.描述性统计
2.推断性统计:
参数估计:对样本整体中某个数值进行估计,如推断总体平均值
假设检验:通过对所做的推断进行验证
概率分布
T-分布,卡方分布,F-分布
T-分布:根据小样本来估计呈正态分布且方差未知的总体的均值,基于在卡方分布的得到的值
其中n为自由度
卡方分布:
所服从的分布是自由度为n(独立正态随机变量的个数)的卡方分布。
则卡方随机变量的概率密度函数:
F分布:
参数估计
假设检验
特征工程
特征选取:构造新的特征
特征选择:从数据本身中找到有用的特征
处理数值特征:
最大最小标准化,Z-分数标准化
处理分类特征:
用数字替换每个值(one-hot),创建虚拟变量(编码矩阵)
处理时间特征:
时间序列分析
处理文本特征:
创建单词计数向量,TF-IDF
处理缺失数据:
删除包含缺失数据的特征。移除包含缺失数据的行,用重要数据代替缺失值(平均值,中值)
降维:
Seaborn
分布图
seaborn.distplot(dist_data_1,bins=10)
双变量分布
seaborn.jointplot(x=dist_data_2,y=dist_data_1)