逻辑回归 p值标准化估计逻辑回归模型p值

转载

mob6454cc74e2cb 2024-04-03 10:40:07

文章标签 逻辑回归 p值标准化估计机器学习人工智能 python sklearn 文章分类 机器学习人工智能

一，什么是逻辑回归？

逻辑回归的使用频率最高

虽然叫回归，但是解决的是分类问题

原理：讲样本的特征和样本发生的概率联系起来，概率是一个数，所以叫回归问题

p=f(x)，再对p进行分类，p表示发生的概率。因此逻辑回归既可以看作回归算法也可以看作分类算法。通常作为分类算法用，只能解决二分类问题。（P的分界点是0.5）

注意概率的值域是[0,1]

可以对y施加一个函数：

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn

使用sigmoid函数：

逻辑回归 p值标准化估计逻辑回归模型p值_逻辑回归 p值标准化估计_02

函数的值域是（0，1）

当t>0, p>0,5, y预测=1

当t<0, p<0.5, y预测=0

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_03

问题：对于给定的样本数据集X、y，如何找到参数theta，使得使用这样的方式可以最大程度的获得样本数据集X对应的分类输出y？

二，逻辑回归的损失函数

如果y真值=1，p越小，损失函数cost越大

如果y真值=0，p越大，损失函数cost越大

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_04

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_05

=>化为：

逻辑回归 p值标准化估计逻辑回归模型p值_逻辑回归 p值标准化估计_06

=>目标函数

逻辑回归 p值标准化估计逻辑回归模型p值_人工智能_07

其中：注意是总体的全部样本X，X的第一列全是1

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_08

对于目标函数最优值的求解没有公式解，只能利用梯度下降法求解。

三，逻辑回归损失函数的梯度

逻辑回归 p值标准化估计逻辑回归模型p值_python_09

逻辑回归 p值标准化估计逻辑回归模型p值_人工智能_10

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_11

=>（写错了是J的求导）

逻辑回归 p值标准化估计逻辑回归模型p值_逻辑回归 p值标准化估计_12

逻辑回归 p值标准化估计逻辑回归模型p值_人工智能_13

逻辑回归 p值标准化估计逻辑回归模型p值_逻辑回归 p值标准化估计_14

对于线性回归：

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_15

逻辑回归 p值标准化估计逻辑回归模型p值_python_16

四，实现逻辑回归算法

在线性回归算法的基础上进行修改

对损失函数进行修改，加入了sigmod激活函数
建立新的梯度
对评价函数score进行了修改

数据采集：

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

iris = datasets.load_iris()

逻辑回归算法只能解决二分法问题

X = iris.data

y = iris.target #表示种类的标签

X = X[y<2,:2]

y = y[y<2]

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_17

使用逻辑回归：

from playML.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, seed=666)

from playML.LogisticRegression import LogisticRegression

log_reg = LogisticRegression()

log_reg.fit(X_train, y_train)

逻辑回归 p值标准化估计逻辑回归模型p值_人工智能_18

逻辑回归 p值标准化估计逻辑回归模型p值_python_19

最终预测结果和测试集的对比

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_20

五，决策边界

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_21

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_22

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_23

分别求出逻辑回归的系数和逻辑回归的截距

逻辑回归 p值标准化估计逻辑回归模型p值_逻辑回归 p值标准化估计_24

就可以用一条直线表示这个决策边界了

def x2(x1):

return (-log_reg.coef_[0] * x1 - log_reg.intercept_) / log_reg.coef_[1]

x1_plot = np.linspace(4, 8, 1000)

x2_plot = x2(x1_plot)

训练数据集：

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_25

测试数据集：

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_26

上述可以看出，简单的逻辑回归是线性的，可以加入多项式项变成非线性的边界

大多数的数据不是线性的，我们要绘制出不规则的决策边界

不规则边界的绘制方法：

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_27

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_28

KNN算法的决策边界

from sklearn.neighbors import KNeighborsClassifier

knn_clf = KNeighborsClassifier()

knn_clf.fit(X_train, y_train)

plot_decision_boundary(knn_clf, axis=[4, 7.5, 1.5, 4.5])

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_29

当选取三个种类的鸢尾花：

knn_clf_all = KNeighborsClassifier()

knn_clf_all.fit(iris.data[:,:2], iris.target)

plot_decision_boundary(knn_clf_all, axis=[4, 8, 1.5, 4.5])

plt.scatter(iris.data[iris.target==0,0], iris.data[iris.target==0,1])

plt.scatter(iris.data[iris.target==1,0], iris.data[iris.target==1,1])

plt.scatter(iris.data[iris.target==2,0], iris.data[iris.target==2,1])

plt.show()

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_30

过拟合的表现，因为k值默认是5

knn_clf_all = KNeighborsClassifier(n_neighbors=50)

knn_clf_all.fit(iris.data[:,:2], iris.target)

plot_decision_boundary(knn_clf_all, axis=[4, 8, 1.5, 4.5])

plt.scatter(iris.data[iris.target==0,0], iris.data[iris.target==0,1])

plt.scatter(iris.data[iris.target==1,0], iris.data[iris.target==1,1])

plt.scatter(iris.data[iris.target==2,0], iris.data[iris.target==2,1])

plt.show()

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_31

六，在逻辑回归中使用多项式特征

数据生成：

import numpy as np

import matplotlib.pyplot as plt

import sklearn

np.random.seed(666)

X = np.random.normal(0, 1, size=(200, 2)) #200个样本，2个特征

y = np.array((X[:,0]**2+X[:,1]**2)<1.5, dtype='int')

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_32

使用逻辑回归：

from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()

log_reg.fit(X, y)

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_33

准确度比较低

使用上节构造的plot_decision_boundary函数

plot_decision_boundary(log_reg, axis=[-4, 4, -4, 4])

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_34

from sklearn.preprocessing import PolynomialFeatures

from sklearn.pipeline import Pipeline

from sklearn.preprocessing import StandardScaler

def PolynomialLogisticRegression(degree):

return Pipeline([

('poly', PolynomialFeatures(degree=degree)),

('std_scaler', StandardScaler()),

('log_reg', LogisticRegression())

])

poly_log_reg = PolynomialLogisticRegression(degree=3)

poly_log_reg.fit(X, y)

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_35

逻辑回归 p值标准化估计逻辑回归模型p值_python_36

当degree=40：

逻辑回归 p值标准化估计逻辑回归模型p值_python_37

出现了过拟合现象

解决过拟合的方式有模型的正则化

七，逻辑回归中使用正则化

生成数据：

import numpy as np

import matplotlib.pyplot as plt

np.random.seed(666)

X = np.random.normal(0, 1, size=(200, 2))

y = np.array((X[:,0]**2+X[:,1])<1.5, dtype='int')

for _ in range(20): #强制改变样本的结果来添加噪音

y[np.random.randint(200)] = 1

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

逻辑回归 p值标准化估计逻辑回归模型p值_人工智能_38

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

sklearn中的逻辑回归：

from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()

log_reg.fit(X_train, y_train)

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_39

plot_decision_boundary(log_reg, axis=[-4, 4, -4, 4])

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

逻辑回归 p值标准化估计逻辑回归模型p值_人工智能_40

同样使用pipline加入多项式项：

poly_log_reg = PolynomialLogisticRegression(degree=2)

poly_log_reg.fit(X_train, y_train)

逻辑回归 p值标准化估计逻辑回归模型p值_人工智能_41

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_42

若degree=20:
泛化能力降低，有一定过拟合现象

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_43

逻辑回归 p值标准化估计逻辑回归模型p值_python_44

重新定义管道，加入正则化的参数C（Jθ前的系数）

逻辑回归 p值标准化估计逻辑回归模型p值_sklearn_45

让正则化项权重更高

逻辑回归 p值标准化估计逻辑回归模型p值_逻辑回归 p值标准化估计_46

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_47

边界明显更简单

新建立管道，加上参数字符串penalty表示正则化

sklearn.linear_model.LogisticRegression — scikit-learn 1.2.2 documentation

逻辑回归 p值标准化估计逻辑回归模型p值_人工智能_48

逻辑回归 p值标准化估计逻辑回归模型p值_人工智能_49

逻辑回归 p值标准化估计逻辑回归模型p值_机器学习_50

但从边界图来看，加入正则化项后，边界变得更接近真实边界！

八，OvR与OvO解决多分类问题

逻辑回归只能解决二分类问题

OvR与OvO是一种通过用的，可以使二分类算法扩展到多分类算法的方式

OvR (One vs Rest) 一个对剩下分类的可能性的进行比较

n个类别就进行n此分类，选择分类得分最高的

OvO (One vs One) 一个对另一个可能性进行比较

每次挑出俩个，进行分类，那么四个类别每次挑俩个，有六种方式

n个类别要进行C(n,2)次分类，选择赢数最高的分类

消耗时间更多，但分类结果更加准确

数据生成：

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

iris = datasets.load_iris()

X = iris.data[:,:2]

y = iris.target

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

from sklearn.linear_model import LogisticRegression #自动添加了多分类的功能

log_reg = LogisticRegression() #默认传入参数是ovr，新版本默认是ovo

log_reg.fit(X_train, y_train)

逻辑回归 p值标准化估计逻辑回归模型p值_人工智能_51

逻辑回归 p值标准化估计逻辑回归模型p值_python_52

调用绘制边界图像的函数：

逻辑回归 p值标准化估计逻辑回归模型p值_python_53

逻辑回归 p值标准化估计逻辑回归模型p值_python_54

逻辑回归 p值标准化估计逻辑回归模型p值_人工智能_55

结果更加准确

使用所有数据

X = iris.data

y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

log_reg = LogisticRegression()

log_reg.fit(X_train, y_train)

log_reg.score(X_test, y_test) 100%

使用ovr会低一些

俩个类：

from sklearn.multiclass import OneVsOneClassifier

from sklearn.multiclass import OneVsRestClassifier

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：kafka字符串转bytes后如何发送 kafka byte数组

下一篇：scrapy response 返回乱码 scrapy keyerror

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯