Scikit-learn数据预处理分类变量编码之字段特征编码

1 声明

本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理。

2 字段特征编码简介

字典特征编码主要是对字典类型的数据进行编码,取key为列,value则对应列的值。比如NLP里的词频,key为单词、values为单词出现次数。

注:这里主要针对原始分类变量是字符串的情况。

from sklearn.feature_extraction import DictVectorizer
data_dict = [{"NLP": 2, "Deep Learning": 4},
{"Nosql": 4, "Machine learning ": 3},
{"Nosql": 1, "Deep Learning": 2},
{"NLP": 2, "Machine learning": 2}]
dictvectorizer = DictVectorizer(sparse=False)
features = dictvectorizer.fit_transform(data_dict)
print(features)
print(dictvectorizer.feature_names_)

Scikit-learn数据预处理分类变量编码之字段特征编码_Machine