1.指数分布族

指数分布族(Exponential Family)是这样一组分布:这些分布的概率密度函数可以表示成以下形式:

python克朗巴哈系统 克朗巴哈系数_指数分布

其中,y是随机变量;h(x)称为基础度量值(base measure);

python克朗巴哈系统 克朗巴哈系数_广义线性模型_02

称为自然参数(natural parameter),也称为规范参数(canonical parameter);T(x)称为充分统计量(sufficient statistic);

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_03

则称为对数分割函数(log partition function)。

指数分布族包括了除了柯西分布和t分布以外的其他基本分布。

下面将几种常用概率分布的化为指数分布族的形式:

伯努利分布(Bernoulli Distribution)

伯努利分布的概率函数为:

python克朗巴哈系统 克朗巴哈系数_正态分布_04

       ,

python克朗巴哈系统 克朗巴哈系数_正态分布_05


因此,伯努利分布概率函数可以写成的指数分布函数的等价形式:

其中,

python克朗巴哈系统 克朗巴哈系数_正态分布_06

python克朗巴哈系统 克朗巴哈系数_正态分布_07

python克朗巴哈系统 克朗巴哈系数_指数分布_08

python克朗巴哈系统 克朗巴哈系数_指数分布_09

python克朗巴哈系统 克朗巴哈系数_广义线性模型_10

正态分布(Normal Distrbution)

正态分布的概率函数为:

其中:

python克朗巴哈系统 克朗巴哈系数_广义线性模型_11

python克朗巴哈系统 克朗巴哈系数_指数分布_12

python克朗巴哈系统 克朗巴哈系数_广义线性模型_13

python克朗巴哈系统 克朗巴哈系数_广义线性模型_14

泊松分布(Poisson Distribution)

泊松分布的概率函数为:

python克朗巴哈系统 克朗巴哈系数_广义线性模型_15

其中:

python克朗巴哈系统 克朗巴哈系数_指数分布_16

python克朗巴哈系统 克朗巴哈系数_指数分布_17

python克朗巴哈系统 克朗巴哈系数_指数分布_18

python克朗巴哈系统 克朗巴哈系数_正态分布_19

指数分布(Exponential Distribution)

python克朗巴哈系统 克朗巴哈系数_正态分布_20

,其中x>0

其中:

python克朗巴哈系统 克朗巴哈系数_广义线性模型_21

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_22

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_23

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_24

2.广义线性模型概念



如果目标变量Y服从指数分布族中某一特定分布,广义线性模型通过连接函数(link function),将重复统计量T(Y)的期望

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_25

和随机量X的线性组合建立相应的函数关系。即

python克朗巴哈系统 克朗巴哈系数_广义线性模型_26

其中,E(T(Y)|X)表示在X已知的前提下,重复统计量T(Y)的期望值,

python克朗巴哈系统 克朗巴哈系数_正态分布_27

为线性组合的系数,

python克朗巴哈系统 克朗巴哈系数_指数分布_28

为线性指示器(linear predictor),g(x)为连接函数。

3.广义线性模型构建

机器学习中广义线性模型的构建是为了通过训练样本来预测y的值。

1)判断在X给定的情况下,Y服从指数分布族中的何种分布;

2)

python克朗巴哈系统 克朗巴哈系数_正态分布_29

3) 通过连接函数建立X与充分统计量T(Y)之间的函数关系:

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_30

下面以常用的分布为例,构建广义线性模型:

伯努利分布

假设在X给定的情况下,Y服从伯努利分布,Y|X~B(n,p),那么预测函数

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_31

的表达式推导如下:

python克朗巴哈系统 克朗巴哈系数_正态分布_32

                                                                               

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_33

python克朗巴哈系统 克朗巴哈系数_正态分布_34

                                                                               

python克朗巴哈系统 克朗巴哈系数_正态分布_35

                                                                               

python克朗巴哈系统 克朗巴哈系数_正态分布_36

                                                                                

python克朗巴哈系统 克朗巴哈系数_指数分布_37

当n=1时,伯努利分布转化成二项分布,仅有{0、1}二值,

python克朗巴哈系统 克朗巴哈系数_正态分布_38

,为Logistic回归。

正态分布

假设在X给定的情况下,Y服从期望为方差为的正态分布,即

python克朗巴哈系统 克朗巴哈系数_广义线性模型_39

,那么预测函数

python克朗巴哈系统 克朗巴哈系数_广义线性模型_40

的表达式推导如下:

那么预测函数

python克朗巴哈系统 克朗巴哈系数_正态分布_41

的表达式推导如下:

python克朗巴哈系统 克朗巴哈系数_指数分布_42

                                                                               

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_43

                                                                               

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_44

                                                                               

python克朗巴哈系统 克朗巴哈系数_正态分布_45

                                                                               

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_46

这正是大家熟悉的一般线性回归方程。

泊松分布

假设在X给定的情况下,Y服从泊松分布,Y|X~P(

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_47

)

预测函数

python克朗巴哈系统 克朗巴哈系数_正态分布_48

的表达式推导如下:

python克朗巴哈系统 克朗巴哈系数_指数分布_49

python克朗巴哈系统 克朗巴哈系数_广义线性模型_50

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_51

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_52

python克朗巴哈系统 克朗巴哈系数_广义线性模型_53


指数分布

假设在X给定的情况下,Y服从指数分布,Y|X~e(

python克朗巴哈系统 克朗巴哈系数_正态分布_54

)

预测函数

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_55

的表达式推导如下:

python克朗巴哈系统 克朗巴哈系数_正态分布_56

                                                                               

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_57

                                                                               

python克朗巴哈系统 克朗巴哈系数_指数分布_58

                                                                               

python克朗巴哈系统 克朗巴哈系数_python克朗巴哈系统_59

                                                                               

python克朗巴哈系统 克朗巴哈系数_指数分布_60