在scikit中包含了一个特征选择的模块sklearn.feature_selection,而在这个模块下面有以下几个方法:

Removing features with low variance(剔除低方差的特征)
Univariate feature selection(单变量特征选择)
Recursive feature elimination(递归功能消除)
Feature selection using SelectFromModel(使用SelectFromModel进行特征选择)
我首先想到的是利用单变量特征选择的方法选出几个跟预测结果最相关的特征。根据官方文档,有以下几种得分函数来检验变量之间的依赖程度:

对于回归问题: f_regression, mutual_info_regression
对于分类问题: chi2, f_classif, mutual_info_classif