机器学习用户画像用户画像用什么算法

转载

mob64ca1418aeab 2023-08-04 17:02:28

文章标签 机器学习用户画像用户画像算法决策树聚类方差 文章分类 机器学习人工智能

决策树

1、决策树，是一种分类算法和回归算法（这里只介绍分类算法）
2、决策树算法的构建分为3个部分：特征的选择，决策树的生成，决策树的剪枝；（主要参考李航的《统计学习方法》第五章）
a、特征的选择—-选择使信息增益最大的特征；即选择一个分类特征必须是分类确定性更高，此特征才是更好的；
b、决策树的生成—ID3，C4.5算法，此时用迭代的方式构建决策树；注意此时的决策树，因为每次选的都是局部最优解，所以是过拟合的；
c、决策树的剪枝—决策树剪枝是为了防止过拟合，根据全局cost function ，如果剪掉一个数支，cost function 会变小，那么剪掉这个树枝；

线性回归算法

回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式，该公式就是所谓的回归方程（regression equation）。求回归方程中的回归系数的过程就是回归。
线性回归（linear regression）意味着可以将输入项分别乘以一些常量，再将结果加起来得到输出。
线性回归的一个问题是有可能出现欠拟合现象，因为它求的是具有最小均方误差的无偏估计。为了降低预测的均方误差，可以在估计中引入一些偏差，其中一个方法是局部加权线性回归（Locally Weighted Linear Regression, LWLR）。如果数据的特征比样本点还多，也就是说输入数据的矩阵X不是满秩矩阵，非满秩矩阵在求逆时会出现问题。为了解决这个问题，可以使用岭回归（ridge regression）、lasso法、前向逐步回归。
岭回归：在矩阵XTX上加一个λI从而使得矩阵非奇异，进而能对XTX+λI求逆。其中矩阵I是一个m*m的单位矩阵，对角线上元素全为1，其他元素全为0。而λ

是一个用户定义的数值。在这种情况下，回归系数的计算公式将变成：

w^=(XTX+λI)−1XTy

岭回归最先用来处理特征数多余样本数的情况，现在也用于在估计中加入偏差，从而得到更好的估计。这里通过引入
λ来限制了所有w之和，通过引入该惩罚项，能够减少不重要的参数，这个技术在统计学中也叫做缩减（shrinkage）。

一旦发现模型和测量值之间存在差异，就说出现了误差。当考虑模型中的“噪声”或者说误差时，必须考虑其来源。训练误差和测试误差由三个部分组成：偏差、测量误差和随机噪声。

方差是可以度量的。取出两组随机样本集并拟合，得到两组回归系数。两组回归系数之间的差异大小就是模型方差大小的反映

树回归算法

CART（Classification And Regression Trees，分类回归树）
回归树：假设叶节点是常数值，这种策略认为数据中的复杂关系可以用树结构来概括。为成功构建以分段常数为叶节点的树，需要度量出数据的一致性。数据集的混乱度即平方误差的总值（总方差=均方差*样本个数）。
模型树：把叶节点设定为分段线性（piecewise linear）函数。

通过降低决策树的复杂度来避免过拟合的过程称为剪枝（pruning）。

Kmeans算法

确定聚类个数K
选定K个D维向量作为初始类中心
对每个样本计算与聚类中心的距离，选择最近的作为该样本所属的类
在同一类内部，重新计算聚类中心（几何重心）不断迭代，直到收敛：

（损失函数为此就是Kmeans算法（其实是默认了我们样布服从均值为μ，方差为某固定值的K个高斯分布，混合高斯分布），如果（x-μ）不是平方，而只是绝对值那就是Kmedian算法，混合拉普拉斯分布）每个样本到聚类中心的距离之和或平方和不再有很大变化。对损失函数求导，，可以看到其实我们更新聚类中心的时候，就是按照梯度的方向更新的。由于损失函数有局部极小值点，所以它是初值敏感的，取不同的初值可能落在不同的极小值点。

轮廓系数（silhouetee）可以对聚类结果有效性进行验证。python中有该方法，metrics.silhouetee_score。越接近1聚的越好，越接近-1聚的越不好。适用于球形聚类的情况。

缺点：1.对初始聚类中心敏感，缓解方案是多初始化几遍，选取损失函数小的。2.必须提前指定K值（指定的不好可能得到局部最优解），缓解方法，多选取几个K值，grid search选取几个指标评价效果情况3.属于硬聚类，每个样本点只能属于一类 4.对异常值免疫能力差，可以通过一些调整（不取均值点，取均值最近的样本点）5.对团状数据点区分度好，对于带状不好（谱聚类或特征映射）。尽管它有这么多缺点，但是它仍然应用广泛，因为它速度快，并且可以并行化处理。

优点：速度快，适合发现球形聚类，可发现离羣点

缺失值问题：离散的特征：将缺失的作为单独一类，90%缺失去掉。连续的特征：其他变量对这个变量回归，做填补；样本平均值填补；中位数填补。

对于初始点选择的问题，有升级的算法Kmeans++，每次选取新的中心点时，有权重的选取（权重为距离上个中心店的距离），

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。