【机器学习】必会降维算法之：特征选择（Feature Selection）

原创

Carl_奕然 2024-06-18 17:32:34 ©著作权

文章标签 机器学习算法人工智能特征选择方差 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者Carl_奕然的原创作品，请联系作者获取转载授权，否则将追究法律责任

特征选择（Feature Selection）

1、引言
2、特征选择（Feature Selection）

2.1 定义
2.2 应用场景
2.3 实现方式

2.3.1 过滤法（Filter Methods）
2.3.2 包装法（Wrapper Methods）
2.3.3 过嵌入法（Embedded Methods）

2.4 代码示例

3、总结

1、引言

在机器学习中，特征选择（Feature Selection）是一种降维技术，旨在从原始特征中选择出最有价值的特征子集，以提高模型的性能。

接下来，我们将深入了解特征选择。

2、特征选择（Feature Selection）

2.1 定义

特征选择是指在构建机器学习模型时，从给定的特征集合中选出对模型预测性能贡献最大的一部分特征，而不是使用全部特征。

这样做的目的是减少数据的维度，提高模型的训练效率，降低过拟合的风险，并可能提高模型的泛化能力。

【机器学习】必会降维算法之：特征选择（Feature Selection）_方差

2.2 应用场景

高维数据处理：当数据集具有大量特征时（如文本分类、基因数据分析），特征选择有助于降低计算复杂度。
提升模型性能：通过去除无关或冗余特征，提高模型的预测准确率。
数据可解释性：选出关键特征后，模型的决策过程更容易被理解。

2.3 实现方式

特征选择的实现方式主要分为三类：

过滤法（Filter Methods）
包装法（Wrapper Methods）
嵌入法（Embedded Methods）。

接下来详细聊一聊。

2.3.1 过滤法（Filter Methods）

过滤方法（Filter Methods）：这类方法先对数据集进行特征选择，然后再训练学习器。它们根据特征的统计性质来选择特征，如相关系数、卡方检验等。
常见的过滤法包括：

方差选择法：选择方差大于某阈值的特征。
相关系数法：计算特征与目标变量之间的相关系数，选择相关系数大于某阈值的特征。
卡方检验：用于分类任务，检验非负特征和输出之间的关系。
互信息法：计算特征与目标变量之间的互信息，选择互信息大于某阈值的特征。

2.3.2 包装法（Wrapper Methods）

包装方法（Wrapper Methods）：这类方法将特征选择过程和模型训练过程结合起来。它们通过选择一组特征并训练模型，根据模型的性能来评价这组特征的好坏。

2.3.3 过嵌入法（Embedded Methods）

嵌入方法（Embedded Methods）：这类方法在模型训练过程中进行特征选择，如Lasso回归。

2.4 代码示例

# -*- coding:utf-8 -*-
# @Time   : 2024-05-22
# @Author : Carl_DJ

from sklearn.feature_selection import VarianceThreshold  
from sklearn.datasets import load_iris  
import numpy as np  
  
# 加载数据集  
iris = load_iris()  
X = iris.data  
y = iris.target  
  
# 设定方差阈值  
threshold = 0.8 * (X.var().min())  
  
# 创建方差选择法对象  
sel = VarianceThreshold(threshold=(threshold ** 2))  
  
# 选择特征  
X_new = sel.fit_transform(X)  
  
# 输出选择后的特征数量  
print('原始特征数量:', X.shape[1])  
print('选择后的特征数量:', X_new.shape[1])  
  
# 查看被移除的特征索引  
print('被移除的特征索引:', np.where(sel.get_support(indices=False) == False)[0])

【机器学习】必会降维算法之：特征选择（Feature Selection）_特征选择_02

3、总结

特征选择是机器学习中的一个重要步骤，它通过选择最相关的特征子集来简化模型、提高模型的性能。

在实际应用中，我们可以根据数据的特点和需求选择合适的特征选择方法。
常见的特征选择方法包括过滤法、包装法和嵌入法。

通过合理的特征选择，我们可以有效地降低数据维度、提高模型的泛化能力。

我是小鱼：

博客专家；
阿里云专家博主；
51CTO博客专家；
企业认证金牌面试官；
多个名企认证&特邀讲师等；
名企签约职场面试培训、职场规划师；
多个国内主流技术社区的认证专家博主；
多款主流产品(阿里云等)评测一等奖获得者；

关注小鱼，学习【机器学习】&【深度学习】领域的知识。

上一篇：【机器学习】优化算法之：随机梯度下降（SGD）

下一篇：【机器学习】必会数学知识：一文掌握数据科学核心数学知识点(下)，收藏~

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯