一、引言
本文以一元线性回归为例,整理线性回归模型参数的估计方法。
样本可由 表示,其中,为随机因素引起的噪声, 为用变量和关系描述的一元线性回归模型。模型中参数和估计的两种常用方法为最小二程法、最大似然估计法。
二、假设条件
(1)样本观测值数据是独立观测的;
(2)解释变量是确定性变量,并非随机变量;
(3)随机变量的期望不等,但方差相等,即独立但不同分布;
(4)随机变量残差(扰动项)独立同分布,且,则
三、最小二乘法
最小二程法用来寻找线性回归模型中的参数和的估计值,估计值用和 表示。为获得最优估计值,算法将预测值和真实观测值之间的误差最小作为优化目标,即计算扰动项的最小值:
于是和的参数估计变成求的极值问题,求偏导
即可得到极值条件下的参数值,即为估计值和 。整理后得结果:
四、极大似然估计
最小二乘法从扰动项的最小值入手,而极大似然估计从扰动项的概率分布入手。
最大似然估计的思想是利用总体的分布密度(连续变量)或概率分布(离散变量)的表达式、以及样本提供的信息建立求解未知参数估计量的方法。这种方法将能够使用的样本视为从总体中被抽中的概率最大的样本,所以这些样本的联合分布密度或联合概率分布为最大值时,模型的估计值最准确。
对于线性回归,假设服从均值为0、方差为正态分布,是与相关的非随机样本,则,的分布密度函数为:
样本的联合密度分布函数为:
取对数后:
等价于求的极小值,回到最小二乘法的原理。整理后得结果:
参考书:《应用回归分析》何晓群