一、线性回归

回归问题:目标值——连续型的数据

线性回归应用场景:房价预测、销售额度预测、金融:贷款额度预测、利用线性回归以及系数分析因子

定义与公式:

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

特点:只有一个自变量的情况称为单变量回归,多于一个自变量情况叫多元回归

通用公式h(w)=w1*x1+w2*x2+w3*x3+…+b=wT x+b

广义线性模型——非线性关系

线性关系一定是线性模型,线性模型不一定是线性关系

二、线性回归的损失和优化原理

损失函数(目标函数):

定义:

                           

非线性回归 拟合度 非线性回归模型公式_python

Y_i为第i个训练样本的真实值

H(x_i)为第i个训练样本特征值组合预测函数

又称最小二乘法

优化损失:

  1. 正规方程:

非线性回归 拟合度 非线性回归模型公式_机器学习_02

理解:X为特征值矩阵,y为目标值矩阵。直接求到最好的结果

缺点:当特征过多过复杂时,求解速度太慢并且得不到结果

  1. 梯度下降:

非线性回归 拟合度 非线性回归模型公式_python_03

非线性回归 拟合度 非线性回归模型公式_非线性回归 拟合度_04

 

理解:a为学习率,需要手动指定(超参数),a旁边的整体表示方向沿着这个函数下降的方向找,最后就能找到山谷的最低点,然后更新w值使用:面对训练数据规模十分庞大的任务,能够找到较好的结果

线性回归API:

Sklearn.linear_model.LinearRegression(fit_intercept=True)

  1. 通过正规方程优化
  2. Fit_intercept:是否计算偏置
  3. LinearRegression.coef_:回归系数
  4. LinearRegression.intercept_:偏置

Sklearn.linear_model.SGDRegressor(loss=”squared_loss”,fit_intercept=True,learning_rate=’invscaling’,eta0=0.01)

  1. SGDRegressor类实现了随机梯度下降算法学习,它支持不同的loss函数和正则化惩罚项来拟合线性回归模型
  2. Loss:损失类型    
  3.     loss=”squared_loss”:普通最小二乘法
  4. Fit_intercept:是否计算偏置
  5. Learning_rate:string,optional
学习率填充
                ‘constant’:eta=eta0
                ‘optimal’:eta=1.0/(alpha*(t+0))[default]
                ‘invscaling’:eta=eta0/pow(t,power_t)    power_t=0.25:存在父类当中

                ‘对于一个常数值的学习率来说,可以使用learning_rate=’constant’,并使用eta0来指定学习率’

  1. SGDRegressor.coef_:回归系数
  2. SGDRegressor.intercept_:偏置
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor
from sklearn.metrics import mean_squared_error

def linerar1():
    """
    正规方程的优化方法对波士顿房价进行预测
    :return:
    """
    #1)获取数据
    boston=load_boston()
    #2)划分数据集
    x_train,x_test,y_train,y_test=train_test_split(boston.data,boston.target,random_state=22)

    #3)标准化
    transfer=StandardScaler()
    x_train=transfer.fit_transform(x_train)
    x_test=transfer.transform(x_test)

    #4)预估器
    estimator=LinearRegression()
    estimator.fit(x_train,y_train)
    #5)得出模型
    print("正规方程权重系数为:\n",estimator.coef_)
    print("正规方程偏置为:\n",estimator.intercept_)
    #6)模型评估
    y_predict=estimator.predict(x_test)
    print("预测房价:\n",y_predict)
    error=mean_squared_error(y_test,y_predict)
    print("正规方程——均方误差为:\n",error)
    return None


def linerar2():
    """
    梯度下降的优化方法对波士顿房价进行预测
    :return:
    """
    # 1)获取数据
    boston = load_boston()
    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, random_state=22)

    # 3)标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4)预估器
    estimator = SGDRegressor()
    estimator.fit(x_train, y_train)
    # 5)得出模型
    print("梯度下降权重系数为:\n", estimator.coef_)
    print("梯度下降偏置为:\n", estimator.intercept_)
    # 6)模型评估
    y_predict = estimator.predict(x_test)
    print("预测房价:\n", y_predict)
    error = mean_squared_error(y_test, y_predict)
    print("梯度下降——均方误差为:\n", error)
    return None

 

回归性能评估

均方误差(Mean Squared Error(MSE))评价机制:

非线性回归 拟合度 非线性回归模型公式_过拟合_05

注意:y^i为预测值,y 为真实值

API:sklearn.metrics.mean_squared_error(y_true,y_pred)

  1. 均方差误差回归损失
  2. Y_true:真实值
  3. Y_pred:预测值
  4. Return:浮点数结果

总结对比:

梯度下降

正规方程

需要选择学习率

不需要

需要迭代求解

一次运算得出

特征数量较大可以使用

需要计算方程,时间复杂度高

扩展——关于梯度下降优化方法GD、SGD、SAG

  1. GD:梯度下降(Gradient Descent),原始的梯度下降法需要计算所有样本的值才能够得出梯度,计算量大,
  2. SGD:随机梯度下降(Stochasticgradient descent)是一个优化方法,它在一次迭代是只考虑一个训练样本

SGD的优点是:高效、容易实现

SGD的缺点是:SGD需要许多超参数:比如正则项参数、迭代数

              SGD对于特征标准化是敏感的

  1. SAG随机平均梯度法(Stochasitc Average Gradient),由于收敛的速度太慢,有人提出SAG等基于梯度下降的算法

Scikit-learn:岭回归、逻辑回归

三、欠拟合和过拟合

在训练集上表现的好,测试集不好

定义:

过拟合:一个假设在训练集上能够获得比其他假设更好的拟合,但是在测试集上却不能很好的拟合数据,此时认为这个假设出现了过拟合的现象。(模型复杂)

欠拟合:一个假设在训练数据上不能获得更好的拟合,并且在测试集上也不能很好的拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)

原因及解决办法:

欠拟合原因以及解决办法:

原因:学习到数据的特征过少

解决办法:增加数据的特征训练

过拟合原因以及解决办法:

原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点

解决办法:正则化

L1正则化:

作用:可以使得其中一些w的值直接为0,删除这个特征的影响

LASSO回归

    损失函数+(惩罚系数)惩罚项

L2正则化:

作用:可以使其中一些W的值都很小,都接近于0,削弱某个特征的影响

优点:越小的参数说明模型越简单,越简单的模型越不容易产生过拟合现象

Ridge回归——岭回归

加入L2正则化后的损失函数:

                                               

非线性回归 拟合度 非线性回归模型公式_机器学习_06

注:m为样本,n为特征数。损失函数+(惩罚系数)惩罚项

四、线性线性回归的改进岭回归:

岭回归:其实就是一种线性回归,只不过在算法建立回归方程时候,加上正则化的限制,从而达到解决过拟合的效果

API:sklearn.linear_model.Ridge(alpha=1.0,fit_intercept=True,solver=”auto”,normalize=False)

具有L2正则化的线性回归

Alpha:正则化力度,也叫非线性回归 拟合度 非线性回归模型公式_随机梯度下降_07非线性回归 拟合度 非线性回归模型公式_python_08 取值0~1,1~10

Solver:会根据数据自动选择优化方法,sag:如果数据集、特征集都比较大,选择该随机梯度下降优化数据

Normalize=False:可以在fit之前调用preprocessing.StandardScaler标准化数据

Ridge.coef_:回归权重

Ridge.intercept_:回归偏置

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression,SGDRegressor,Ridge
from sklearn.metrics import mean_squared_error


def linerar3():
    """
    岭回归对波士顿房价进行预测
    :return:
    """
    # 1)获取数据
    boston = load_boston()
    # 2)划分数据集
    x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, random_state=22)

    # 3)标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)

    # 4)预估器
    estimator = Ridge()
    estimator.fit(x_train, y_train)
    # 5)得出模型
    print("岭回归权重系数为:\n", estimator.coef_)
    print("岭回归偏置为:\n", estimator.intercept_)
    # 6)模型评估
    y_predict = estimator.predict(x_test)
    print("预测房价:\n", y_predict)
    error = mean_squared_error(y_test, y_predict)
    print("岭回归——均方误差为:\n", error)
    return None

正则化力度越大,权重系数越小

正则化力度越小,权重系数越大