Scikit-learn数据预处理分类变量编码之字段特征编码

原创

Shen Liang 2023-02-21 09:03:04 博主文章分类：机器学习 ©著作权

文章标签 自然语言处理 python 特征编码字段 Machine 文章分类 JavaScript 前端开发

©著作权归作者所有：来自51CTO博客作者Shen Liang的原创作品，请联系作者获取转载授权，否则将追究法律责任

Scikit-learn数据预处理分类变量编码之字段特征编码

1 声明

本文的数据来自网络，部分代码也有所参照，这里做了注释和延伸，旨在技术交流，如有冒犯之处请联系博主及时处理。

2 字段特征编码简介

字典特征编码主要是对字典类型的数据进行编码，取key为列，value则对应列的值。比如NLP里的词频,key为单词、values为单词出现次数。

注：这里主要针对原始分类变量是字符串的情况。

from sklearn.feature_extraction import DictVectorizer
data_dict = [{"NLP": 2, "Deep Learning": 4},
{"Nosql": 4, "Machine learning ": 3},
{"Nosql": 1, "Deep Learning": 2},
{"NLP": 2, "Machine learning": 2}]
dictvectorizer = DictVectorizer(sparse=False)
features = dictvectorizer.fit_transform(data_dict)
print(features)
print(dictvectorizer.feature_names_)

Scikit-learn数据预处理分类变量编码之字段特征编码_Machine