线性回归:在已有数据集上通过构建一个线性的模型来拟合该数据集特征向量的各个分量之间的关系,对于需要预测结果的新数据,我们利用已经拟合好的线性模型来预测其结果。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。
拟合方程使用得比较广泛的有最小二乘法。
线性模型在二维空间中就是一条直线,在三维空间是一个平面。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。
最小二乘法:考虑函数 y=a+bx, 其中a 和 b是待定常数。 如果离散点完全的在一直线上,可以认为变量之间的关系为一元函数 。但一般说来,这些点不可能在同一直线上。但是它只能用直线来描述时, 计算值与实际值会产生偏差。当然要求偏差越小越好,但由于偏差可正可负, 因此不能认为总偏差 时, 拟合函数很好地反映了变量之间的关系,但是因为此时每个偏差的绝对值可能很大。 为了改进这一缺陷, 就考虑用平均值来代替 。但是由于绝对值不易作解析运算,因此,进一步用残差平方和函数来度量总偏差。偏差的平方和最小可以保证每个偏差都不会很大。于是问题归结为确定拟合函数中的常数和使残差平方和函数最小。 通过这种方法确定系数的方法称为最小二乘法。
卡方分布:
若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。
卡方分布是由正态分布构造而成的一个新的分布,当自由度很大时,分布近似为正态分布。
卡方分布的 期望E(χ2)=n,方差D(χ2)=2n
性质:
在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着参数的增大,分布趋近于正态分布;卡方分布密度曲线下的面积都是1。
从均值与方差可以看出,随着自由度的增大,卡方分布向正无穷方向延伸(因为均值越来越大),分布曲线也越来越低阔(因为方差越来越大)。
不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。
分布的方差为2倍的自由度。
方差分析:用于两个及两个以上样本均数差别的显著性检验。
方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:
(1) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和的总和表示,记作SSb,组间自由度dfb。
(2)随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。
总偏差平方和 SSt = SSb + SSw。