机器学习笔记

原创

51CTO_姜君泽 2022-06-23 17:39:20 博主文章分类：机器学习 ©著作权

©著作权归作者所有：来自51CTO博客作者51CTO_姜君泽的原创作品，请联系作者获取转载授权，否则将追究法律责任

机器学习开发流程

1.首先掌握各类分析方法的特性，不仅需要了解如何使用各类算法，还要了解其实现原理，这样在参数优化和模型改进时可以减少无效调整
2.在选择模型之前，要对数据进行探索性分析，了解数据类型和数据特征，发现数据之间的关系，可应用箱图，直方图，散点图等
3.在模型选择中，可以开始选出可能的模型几个，结合业务选择自变量，选择模型后，比较不同模型的拟合程度，可以统计显著性参数、R平方等，在单个模型中可以使用交叉验证分析，反复调整参数，误差分析（数据质量、算法选择、特征选择、参数设置）

机器学习基本方法

统计分析

1.描述性统计
2.推断性统计：
参数估计：对样本整体中某个数值进行估计，如推断总体平均值
假设检验：通过对所做的推断进行验证

概率分布

T-分布，卡方分布，F-分布
T-分布：根据小样本来估计呈正态分布且方差未知的总体的均值，基于在卡方分布的得到的值
机器学习笔记_假设检验
其中n为自由度
卡方分布：
机器学习笔记_特征选择_02
所服从的分布是自由度为n（独立正态随机变量的个数）的卡方分布。
则卡方随机变量的概率密度函数：
机器学习笔记_假设检验_03
F分布：
机器学习笔记_数据_04

参数估计

假设检验

特征工程

特征选取：构造新的特征
特征选择：从数据本身中找到有用的特征

处理数值特征：

最大最小标准化，Z-分数标准化

处理分类特征：

用数字替换每个值（one-hot）,创建虚拟变量（编码矩阵）

处理时间特征：

时间序列分析

处理文本特征：

创建单词计数向量，TF-IDF

处理缺失数据：

删除包含缺失数据的特征。移除包含缺失数据的行，用重要数据代替缺失值（平均值，中值）

降维：

Seaborn

分布图

seaborn.distplot(dist_data_1,bins=10)

机器学习笔记_数据_05

双变量分布

seaborn.jointplot(x=dist_data_2,y=dist_data_1)

机器学习笔记_数据_06

上一篇：时间序列分析

下一篇：pandas中set_index、reset_index区别

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯