ReliefF 特征权重评估方法结合多种机器学习方法种怎么实现 relief特征选择

转载

mob6454cc71d565 2024-07-29 16:45:38

文章标签 人工智能嵌入式特征选择预处理数据集 文章分类 机器学习人工智能

运用机器学习算法时由于初始数据集的各种问题，往往需要进行预处理，特征选择通常也作为预处理的一种，用于剔除无关特征，减少特征维度，减小维度灾难的问题。举个例子的话，在评估某市的房价时，房价和地段、交通、城市区域等因素关系密切，但与街道名字这种因素就可能完全没有关系，需要去除掉。

根据《机器学习》的内容粗略做一下笔记。

过滤式选择(relief)

如果用一个量值来表示一个特征与样本是否有关，让与样本相关度高的特征的这个值比相关度低的大。我们可以这样考虑：

如果某个特征与样本相关度高，那么同类样本的此特征差异普遍较小，而不同类别的样本此特征差异普遍较大；反之如果相关度低，那么同类样本与不同类样本之间的差异普遍不明显。那么可以根据此性质，用猜对的最近邻$x_{i,nm}$（猜中近邻）和猜错的最近邻$x_{i,nm}$（猜错近邻）两个样本来代表所有样本

对于特征j的统计分量为：

$$ \delta^{j}=\sum_{i}-diff(x_{i}^{j},x_{i,nh}^{j})^{2}+diff(x_{i}^{j},x_{i,nm}^{j})^{2} $$

其中$diff(a,b)$对于离散型数据，a，b相同为0，不同为1，对于连续性数据，表示规范化（归一化）后的a，b距离。

判断特征是否相关时，可以设置阈值$\tau$筛选，或者指定取k个最相关的特征。

此算法只适合二分类问题，多分类问题需要进行调整为：

$$ \delta^{j}=\sum_{i}-diff(x_{i}^{j},x_{i,nh}^{j})^{2}+\sum_{l\neq k}\left(p_{l}*diff(x_{i}^{j},x_{i,l,nm}^{j})^{2}\right) $$

其中$p_{l}$为第l类样本在数据集中的比例。

包裹式选择

通过最终学习器得到的结果来决定特征选择，时间开销大，需要采用适当停止策略。

随机选择特征子集，用交叉验证计算误差，把误差更小或者误差近似但特征数更少的特征子集保留下来。

子集搜索采用随机策略（拉斯维加斯方法）

嵌入式选择

与用于预处理的特征选择不同，嵌入式选择是与机器学习算法结合在一起的，在执行算法的过程中同时完成特征选择。

如果解的特征矩阵有许多0解，可以使一些特征的权重为 0，即得到稀疏解。使用$L_{1}$范数的正则化可以减少非零解的数量，就间接的进行了特征选择的过程。

给自己记一下之后应该会用到的重点，稀疏表示

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：js accessor jsaccessories什么牌子

下一篇：sqlserver 失效索引查询 sql语句索引失效

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯