一,什么是逻辑回归?

逻辑回归的使用频率最高

虽然叫回归,但是解决的是分类问题

原理:讲样本的特征和样本发生的概率联系起来,概率是一个数,所以叫回归问题

p=f(x),再对p进行分类,p表示发生的概率。因此逻辑回归既可以看作回归算法也可以看作分类算法。通常作为分类算法用,只能解决二分类问题。(P的分界点是0.5)

注意概率的值域是[0,1]

可以对y施加一个函数:

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn

使用sigmoid函数:

逻辑回归 p值 标准化估计 逻辑回归模型p值_逻辑回归 p值 标准化估计_02

函数的值域是(0,1)

当t>0, p>0,5, y预测=1

当t<0, p<0.5, y预测=0

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_03

问题:对于给定的样本数据集X、y,如何找到参数theta,使得使用这样的方式可以最大程度的获得样本数据集X对应的分类输出y?

二,逻辑回归的损失函数

如果y真值=1,p越小,损失函数cost越大

如果y真值=0,p越大,损失函数cost越大

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_04

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_05

=>化为:

逻辑回归 p值 标准化估计 逻辑回归模型p值_逻辑回归 p值 标准化估计_06

=>目标函数

逻辑回归 p值 标准化估计 逻辑回归模型p值_人工智能_07

其中:注意是总体的全部样本X,X的第一列全是1

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_08

对于目标函数最优值的求解没有公式解,只能利用梯度下降法求解。

三,逻辑回归损失函数的梯度

逻辑回归 p值 标准化估计 逻辑回归模型p值_python_09

逻辑回归 p值 标准化估计 逻辑回归模型p值_人工智能_10

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_11

=>(写错了是J的求导)

逻辑回归 p值 标准化估计 逻辑回归模型p值_逻辑回归 p值 标准化估计_12

逻辑回归 p值 标准化估计 逻辑回归模型p值_人工智能_13

逻辑回归 p值 标准化估计 逻辑回归模型p值_逻辑回归 p值 标准化估计_14

对于线性回归:

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_15

逻辑回归 p值 标准化估计 逻辑回归模型p值_python_16

四,实现逻辑回归算法

在线性回归算法的基础上进行修改

  • 对损失函数进行修改,加入了sigmod激活函数
  • 建立新的梯度
  • 对评价函数score进行了修改

数据采集:

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

iris = datasets.load_iris()

逻辑回归算法只能解决二分法问题

X = iris.data

y = iris.target #表示种类的标签

X = X[y<2,:2]

y = y[y<2]

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_17

使用逻辑回归:

from playML.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, seed=666)

from playML.LogisticRegression import LogisticRegression

log_reg = LogisticRegression()

log_reg.fit(X_train, y_train)

逻辑回归 p值 标准化估计 逻辑回归模型p值_人工智能_18

逻辑回归 p值 标准化估计 逻辑回归模型p值_python_19

最终预测结果和测试集的对比

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_20

五,决策边界

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_21

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_22

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_23

分别求出逻辑回归的系数和逻辑回归的截距

逻辑回归 p值 标准化估计 逻辑回归模型p值_逻辑回归 p值 标准化估计_24

就可以用一条直线表示这个决策边界了

def x2(x1):

    return (-log_reg.coef_[0] * x1 - log_reg.intercept_) / log_reg.coef_[1]

x1_plot = np.linspace(4, 8, 1000)

x2_plot = x2(x1_plot)

训练数据集:

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_25

测试数据集:

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_26

上述可以看出,简单 的逻辑回归是线性的,可以加入多项式项变成非线性的边界

大多数的数据不是线性的,我们要绘制出不规则的决策边界

不规则边界的绘制方法:

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_27

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_28

KNN算法的决策边界

from sklearn.neighbors import KNeighborsClassifier

knn_clf = KNeighborsClassifier()

knn_clf.fit(X_train, y_train)

plot_decision_boundary(knn_clf, axis=[4, 7.5, 1.5, 4.5])

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_29

当选取三个种类的鸢尾花:

knn_clf_all = KNeighborsClassifier()

knn_clf_all.fit(iris.data[:,:2], iris.target)

plot_decision_boundary(knn_clf_all, axis=[4, 8, 1.5, 4.5])

plt.scatter(iris.data[iris.target==0,0], iris.data[iris.target==0,1])

plt.scatter(iris.data[iris.target==1,0], iris.data[iris.target==1,1])

plt.scatter(iris.data[iris.target==2,0], iris.data[iris.target==2,1])

plt.show()

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_30

过拟合的表现,因为k值默认是5

knn_clf_all = KNeighborsClassifier(n_neighbors=50)

knn_clf_all.fit(iris.data[:,:2], iris.target)

plot_decision_boundary(knn_clf_all, axis=[4, 8, 1.5, 4.5])

plt.scatter(iris.data[iris.target==0,0], iris.data[iris.target==0,1])

plt.scatter(iris.data[iris.target==1,0], iris.data[iris.target==1,1])

plt.scatter(iris.data[iris.target==2,0], iris.data[iris.target==2,1])

plt.show()

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_31

六,在逻辑回归中使用多项式特征

数据生成:

import numpy as np

import matplotlib.pyplot as plt

import sklearn

np.random.seed(666)

X = np.random.normal(0, 1, size=(200, 2)) #200个样本,2个特征

y = np.array((X[:,0]**2+X[:,1]**2)<1.5, dtype='int')

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_32

使用逻辑回归:

from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()

log_reg.fit(X, y)

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_33

准确度比较低

使用上节构造的plot_decision_boundary函数

plot_decision_boundary(log_reg, axis=[-4, 4, -4, 4])

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_34

from sklearn.preprocessing import PolynomialFeatures

from sklearn.pipeline import Pipeline

from sklearn.preprocessing import StandardScaler

def PolynomialLogisticRegression(degree):

    return Pipeline([

        ('poly', PolynomialFeatures(degree=degree)),

        ('std_scaler', StandardScaler()),

        ('log_reg', LogisticRegression())

    ])

poly_log_reg = PolynomialLogisticRegression(degree=3)

poly_log_reg.fit(X, y)

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_35

逻辑回归 p值 标准化估计 逻辑回归模型p值_python_36

当degree=40:

逻辑回归 p值 标准化估计 逻辑回归模型p值_python_37

出现了过拟合现象

解决过拟合的方式有模型的正则化

七,逻辑回归中使用正则化

生成数据:

import numpy as np

import matplotlib.pyplot as plt

np.random.seed(666)

X = np.random.normal(0, 1, size=(200, 2))

y = np.array((X[:,0]**2+X[:,1])<1.5, dtype='int')

for _ in range(20): #强制改变样本的结果来添加噪音

    y[np.random.randint(200)] = 1

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

逻辑回归 p值 标准化估计 逻辑回归模型p值_人工智能_38

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

sklearn中的逻辑回归:

from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()

log_reg.fit(X_train, y_train)

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_39

plot_decision_boundary(log_reg, axis=[-4, 4, -4, 4])

plt.scatter(X[y==0,0], X[y==0,1])

plt.scatter(X[y==1,0], X[y==1,1])

plt.show()

逻辑回归 p值 标准化估计 逻辑回归模型p值_人工智能_40

同样使用pipline加入多项式项:

poly_log_reg = PolynomialLogisticRegression(degree=2)

poly_log_reg.fit(X_train, y_train)

逻辑回归 p值 标准化估计 逻辑回归模型p值_人工智能_41

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_42

degree=20:
泛化能力降低,有一定过拟合现象

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_43

逻辑回归 p值 标准化估计 逻辑回归模型p值_python_44

重新定义管道,加入正则化的参数C(Jθ前的系数)

逻辑回归 p值 标准化估计 逻辑回归模型p值_sklearn_45

让正则化项权重更高

逻辑回归 p值 标准化估计 逻辑回归模型p值_逻辑回归 p值 标准化估计_46

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_47

边界明显更简单

新建立管道,加上参数字符串penalty表示正则化

sklearn.linear_model.LogisticRegression — scikit-learn 1.2.2 documentation

逻辑回归 p值 标准化估计 逻辑回归模型p值_人工智能_48

逻辑回归 p值 标准化估计 逻辑回归模型p值_人工智能_49

逻辑回归 p值 标准化估计 逻辑回归模型p值_机器学习_50

但从边界图来看,加入正则化项后,边界变得更接近真实边界!

八,OvR与OvO解决多分类问题

逻辑回归只能解决二分类问题

OvR与OvO是一种通过用的,可以使二分类算法扩展到多分类算法的方式

OvR (One vs Rest) 一个对剩下分类的可能性的进行比较

n个类别就进行n此分类,选择分类得分最高的

OvO (One vs One) 一个对另一个可能性进行比较

每次挑出俩个,进行分类,那么四个类别每次挑俩个,有六种方式

n个类别要进行C(n,2)次分类,选择赢数最高的分类

消耗时间更多,但分类结果更加准确

数据生成:

import numpy as np

import matplotlib.pyplot as plt

from sklearn import datasets

iris = datasets.load_iris()

X = iris.data[:,:2]

y = iris.target

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

from sklearn.linear_model import LogisticRegression #自动添加了多分类的功能

log_reg = LogisticRegression() #默认传入参数是ovr,新版本默认是ovo

log_reg.fit(X_train, y_train)

逻辑回归 p值 标准化估计 逻辑回归模型p值_人工智能_51

逻辑回归 p值 标准化估计 逻辑回归模型p值_python_52

调用绘制边界图像的函数:

逻辑回归 p值 标准化估计 逻辑回归模型p值_python_53

逻辑回归 p值 标准化估计 逻辑回归模型p值_python_54

逻辑回归 p值 标准化估计 逻辑回归模型p值_人工智能_55

结果更加准确

使用所有数据

X = iris.data

y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

log_reg = LogisticRegression()

log_reg.fit(X_train, y_train)

log_reg.score(X_test, y_test) 100%

使用ovr会低一些

俩个类:

from sklearn.multiclass import OneVsOneClassifier

from sklearn.multiclass import OneVsRestClassifier