首先,广义线性模型是基于指数分布族的,而指数分布族的原型如下

   

广义线性回归和logistic回归 广义线性回归模型_最小二乘

   其中

广义线性回归和logistic回归 广义线性回归模型_指数分布_02

为自然参数,它可能是一个向量,而

广义线性回归和logistic回归 广义线性回归模型_广义线性回归和logistic回归_03

叫做充分统计量,也可能是一个向量,通常来说

广义线性回归和logistic回归 广义线性回归模型_最小二乘_04

。   实际上线性最小二乘回归和Logistic回归都是广义线性模型的一个特例。当随机变量

广义线性回归和logistic回归 广义线性回归模型_最小二乘_05

服从高斯分布,那么   得到的是线性最小二乘回归,当随机变量

广义线性回归和logistic回归 广义线性回归模型_最小二乘_06

服从伯努利分布,则得到的是Logistic回归。

   那么如何根据指数分布族来构建广义线性模型呢? 首先以如下三个假设为基础

 (1)给定特征属性

广义线性回归和logistic回归 广义线性回归模型_广义线性回归和logistic回归_07

和参数

广义线性回归和logistic回归 广义线性回归模型_广义线性回归和logistic回归_08

后,

广义线性回归和logistic回归 广义线性回归模型_泊松分布_09

的条件概率

广义线性回归和logistic回归 广义线性回归模型_指数分布_10

服从指数分布族,即

广义线性回归和logistic回归 广义线性回归模型_泊松分布_11

。   (2)预测

广义线性回归和logistic回归 广义线性回归模型_最小二乘_12

的期望,即计算

广义线性回归和logistic回归 广义线性回归模型_泊松分布_13

。   (3)

广义线性回归和logistic回归 广义线性回归模型_泊松分布_14


广义线性回归和logistic回归 广义线性回归模型_指数分布_15

之间是线性的,即

广义线性回归和logistic回归 广义线性回归模型_最小二乘_16


   在讲解利用广义线性模型推导最小二乘和Logistic回归之前,先来认识一些常见的分布,这是后面的基础。

   (1)高斯分布

      关于高斯分布的内容我就不再多讲了,如果把它看成指数分布族,那么有

      

广义线性回归和logistic回归 广义线性回归模型_广义线性回归和logistic回归_17

         对比一下指数分布族,可以发现

      

广义线性回归和logistic回归 广义线性回归模型_泊松分布_18

      所以高斯分布实际上也是属于指数分布族,线性最小二乘就是基于高斯分布的。

  (2)伯努利分布

两点分布或者0-1分布,是一个离散型概率分布,若伯努利实验成功,则伯努利随机变量取值为1,如果失败,则伯努利随机变量取值为0。并记成功的概率为

广义线性回归和logistic回归 广义线性回归模型_指数分布_19

,那么失败的概率就是

广义线性回归和logistic回归 广义线性回归模型_泊松分布_20


      所以得到其概率密度函数为

                          

广义线性回归和logistic回归 广义线性回归模型_指数分布_21

         如果把伯努利分布写成指数分布族,形式如下

       

广义线性回归和logistic回归 广义线性回归模型_泊松分布_22

      对比指数分布族,有

      

广义线性回归和logistic回归 广义线性回归模型_泊松分布_23

Logistic回归就是基于伯努利分布的,之前的Sigmoid函数,现在我们就可以知道它是如何来的了。如下

      

广义线性回归和logistic回归 广义线性回归模型_泊松分布_24

      如果

      

广义线性回归和logistic回归 广义线性回归模型_指数分布_25

      那么

广义线性回归和logistic回归 广义线性回归模型_广义线性回归和logistic回归_26

叫做正则响应函数,而

广义线性回归和logistic回归 广义线性回归模型_广义线性回归和logistic回归_27

叫做正则关联函数。

  (3)泊松分布

      泊松分布是一种离散型概率分布,其随机变量

广义线性回归和logistic回归 广义线性回归模型_最小二乘_28

只能取非负整数值0,1,2,...      

广义线性回归和logistic回归 广义线性回归模型_广义线性回归和logistic回归_29

      其中参数

广义线性回归和logistic回归 广义线性回归模型_最小二乘_30

是泊松分布的均值,也是泊松分布的方差,表示单位时间内随机事件的平均发生率。在实际

      的实例中,近似服从泊松分布的事件有:收银员某段时间接受的顾客数,或者某段时间火车站排队的人数,以及客服接到的投诉数等计数问题。