广义线性模型(GLM)

首先术语广义线性模型(GLM)通常是指给定连续和/或分类预测变量的连续响应变量的常规线性回归模型。它包括多元线性回归,以及ANOVA和ANCOVA(仅具有固定效果)。形式为
yi〜N(xβ,σ2),其中xi包含已知的协变量,β包含要估计的系数。这些模型使用最小二乘和加权最小二乘拟合。

术语广义线性模型(GLIM或GLM)是指由McCullagh和Nelder(1982,第二版,1989)推广的一类更大的模型。在这些模型中,假设响应变量yi遵循均值为μi的指数族分布,并假定为xβ的某些(通常是非线性)函数。有些人会称它们为“非线性”,因为μi通常是协变量的非线性函数,但是McCullagh和Nelder认为它们是线性的,因为协变量仅通过线性组合xTiβ影响yi的分布。第一个广泛使用的适合这些模型的软件包称为GLIM。

广义线性模型(GLM)是一类广泛的模型,包括线性回归,ANOVA,泊松回归,对数线性模型等。下表提供了遵循Agresti(2013年第4章)的GLM的简要概述:

广义回归模型 R语言 广义线性回归_最小二乘

任何GLM都有三个组成部分:

随机分量–指响应变量的概率分布(Y); 例如 线性回归中Y的正态分布,或二进制逻辑回归中Y的二项分布。 也称为噪声模型或误差模型。

系统组件-在模型中指定解释变量(X1,X2,… Xk),更具体地说,在创建所谓的线性预测变量时将其线性组合。

链接函数,η或g(μ)-指定随机和系统分量之间的链接。 它表示响应的期望值如何与解释变量的线性预测变量相关; 例如,对于线性回归,η= g(E(Yi))= E(Yi);对于逻辑回归,η= logit(π)。

GLM与传统(OLS)回归相比的优势

我们不需要将响应Y转换为具有正态分布
链接的选择与随机分量的选择是分开的,因此我们在建模方面具有更大的灵活性
如果链接产生加性效应,则我们不需要恒定的方差。
通过最大似然估计拟合模型; 因此,估计器的最佳属性。
我们将讨论对数线性和逻辑回归模型的所有推理工具和模型检查也适用于其他GLM。 例如偏差,残差,置信区间,过度分散。

线性回归

线性回归尝试通过将线性方程式拟合到观测数据来模拟两个变量之间的关系。一个变量被认为是解释性变量,另一个被认为是因变量。例如,建模者可能希望使用线性回归模型将个体的体重与其身高相关联。
在尝试将线性模型拟合到观测数据之前,建模者应首先确定目标变量之间是否存在关系。这并不一定意味着一个变量会导致另一个变量(例如,较高的SAT分数不会导致较高的大学成绩),但是这两个变量之间存在一定的显着相关性。散点图可能是确定两个变量之间关系强度的有用工具。如果建议的解释变量和因变量之间似乎没有关联(即散点图未指示任何增加或减少的趋势),则将线性回归模型拟合到数据可能不会提供有用的模型。相关变量的一个有价值的数值度量是相关系数,它是一个介于-1和1之间的值,表示两个变量所观察到的数据的相关强度。

线性回归线的方程式为Y = a + bX,其中X是解释变量,Y是因变量。线的斜率是b,a是截距(x = 0时y的值)。

最小二乘回归

拟合回归线的最常见方法是最小二乘法。此方法通过最小化每个数据点到该线的垂直偏差的平方和来计算观测数据的最佳拟合线(如果点正好位于拟合线上,则其垂直偏差为0)。因为偏差首先被平方,然后求和,所以在正值和负值之间没有抵消(具体介绍参见我的另一篇文章)。

至于为什么最小二乘是线性回归时的最优方法,参见我的另一篇推导过程(‘最小二乘误差及其概率解释’)。