one-hot编码

原创

mob604756f3ed23 2021-03-24 19:14:06 ©著作权

文章标签 java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob604756f3ed23的原创作品，请联系作者获取转载授权，否则将追究法律责任

与上一篇文章隔得有点久，粉快掉没了，哈哈。这次讲讲one-hot编码，也是第四范式很喜欢用的一个方法，有要去他家面试的，可以好好了解一下。

one-hot编码

分类变量（定量特征）与连续变量（定性特征）。我们训练模型的变量，一般分为两种形式。以年收入增长率为例，如果取值为0-1之间任意数，则此时变量为连续变量。如果把增长率进行分段处理，表示成如下形式：[0,0.3],(0.3,0.6],(0.6,1]，那么此时变量为分类变量。
特征转换。对于分类变量，建模时要进行转换，通常直接转换为数字。比如将[0,0.3],(0.3,0.6],(0.6,1]表示为0,1,2。原因主要有两点：
1,转换后可以提高模型运算效率。
2,对于一些模型，比如逻辑回归或计算距离时，无法对分类值直接进行计算。
直接转换为数字，也会带来一些问题：
1,转换为数字后，默认为连续变量，违背最初设计，影响效率。
2,转换后的值会影响同一特征在样本中的权重。比如转换为1000和转换为1对模型影响明显不同。
因此，需要更好的编码方式对特征进行转换。
one-hot编码。one-hot编码的定义是用N位状态寄存器来对N个状态进行编码。比如上面的例子[0,0.3],(0.3,0.6],(0.6,1]，有3个分类值，因此N为3，对应的one-hot编码可以表示为100,010,001。
使用步骤。比如用LR算法做模型，在数据处理过程中，可以先对连续变量进行离散化处理，然后对离散化后数据进行one-hot编码，最后放入LR模型中。这样可以增强模型的非线性能力。
R语言举例。使用R中的默认数据集CO2，查看数据，发现Type，Treatment等为分类变量。
以Type变量为例，进行one-hot编码。为了观察结果方便，把顺序打乱，观察编码后结果。