如何避免逻辑回归五折交叉验证结果不稳定逻辑回归交互作用

转载

mob64ca13f4c367 2024-04-23 16:38:12

我们可以从两个方面来分析：

非线性。逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；离散特征的增加和减少都很容易，易于模型的快速迭代；
速度快。稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；
鲁棒性。离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是这样表示的：年龄大于30的是1，否则为0。如果特征没有离散化，一个异常数据“年龄为300”会给模型造成很大的干扰；
方便交叉与特征组合：离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；
稳定性：特征离散化之后，模型会更稳定，比如如果对用户的年龄离散化，20-30岁作为一个区间，不会因为一个用户年龄增长了一岁就会变成一个完全不同的人。当然处于区间分界点处的样本会刚好相反，所以怎么划分区间是一门学问；
简化模型。对特征进行离散化之后，起到了简化逻辑回归模型的作用，降低了模型产生过拟合的风险。