提纲:

  1. 回顾多元线性回归
  2. 广义线性模型的基本形式
  3. 对数线性回归
  4. 学习和参考资料

 

1.回顾多元线性回归

在上一篇随笔中,说到了线性模型中最基本的一种--多元线性回归,其基本形式如图一所示:

GWAS线性模型 线性模型图_GWAS线性模型

图一

在多元线性回归中,模型的预测值都分布在一条直线上,所以只有当样本点的真实分布大致与所求到的直线的形状相同时,模型才能工作得很好。情况大致如图二所示:

GWAS线性模型 线性模型图_多元线性回归_02

图二

在图二中,我们认为样本点的分布是线性变化的,所以我们模型的预测值直接逼近样本点的真实值y本身,但在现实生活中,很多时候样本点的分布并非像图二所示,那么我们有没有一种模型,可以让线性模型推广开来,适应更多现实中的情况呢?假设我们有一个像图三一样的样本点集合;

GWAS线性模型 线性模型图_广义线性模型_03

图三

在学习如何让模型的预测值逼近如图三的直线之前,我们先来看一下什么是广义线性模型。

 

2.广义线性模型的基本形式

广义线性模型的基本形式如图四:

GWAS线性模型 线性模型图_广义线性模型_04

图四

其中,g(·)为联系函数(link function),作用是将线性回归模型的预测值与真实值y联系起来,它是一个单调可微函数,形如图四的模型叫“广义线性模型”。

说白了,广义线性模型就是给线性回归模型的预测值穿上个小马甲,例如,假设有个样本点集合,样本点的分布如图三所呈现,即真实值y是在指数尺度上变化,我们希望线性回归的预测值会逼近如图三的分布,那么,我们就应该根据样本点的真实值y是呈指数变化的这个特点,给线性回归模型的预测值穿上指数变化小马甲,而g(·)这个函数,就是起到一个马甲的作用。

GWAS线性模型 线性模型图_多元线性回归_05

图五

3.对数线性回归

对数线性回归是g(·)=ln(·)时的特例,可以适应样本点集合的真实标记值y呈现如图三中的变化时的情况。

当g(·)=ln(·)时,y=e^(wT*x+b),具体推导过程如图六所示:

GWAS线性模型 线性模型图_GWAS线性模型_06

图六

 

4.学习和参考资料

周志华老师的《机器学习》,清华大学出版社。