在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。(这反过来又应当由多个相关的因变量预测的多元线性回归区别,[引文需要],而不是一个单一的标量变量。
双变量计量资料:每个个体有两个变量值
总体:无限或有限对变量值
样本:从总体随机抽取的n对变量值
(X1,Y1), (X2,Y2), …, (Xn,Yn)
目的:研究X和Y的数量关系
“回归”已成为表示变量之间某种数量依存关系的统计学术语,相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。
直线回归的概念:
目的:研究因变量Y对自变量X的数量依存关系。
特点:统计关系。 X值和Y的均数的关系,不同于一般数学上的X 和Y的函数关系。为了直观地说明直线回归的概念,以15名健康人凝血酶浓度(X)与凝血时间(Y)数据:
No. | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
X(凝血酶浓度) | 1.1 | 1.2 | 1.0 | 0.9 | 1.2 | 1.1 | 0.9 | 0.6 | 1.0 | 0.9 | 1.1 | 0.9 | 1.1 | 1.0 | 0.7 |
Y(凝血时间) | 14 | 13 | 15 | 15 | 13 | 14 | 16 | 17 | 14 | 16 | 15 | 16 | 14 | 15 | 17 |
定量描述健康人凝血酶浓度(X)与凝血时间(Y)数据的数量上的依存关系时,将凝血酶浓度称为自变量(independent variable),用 X 表示;凝血时间称为因变量(dependent variable),用 Y 表示Z。
凝血时间随凝血酶浓度的增加而减低且呈直线趋势,但并非所有点子恰好全都在一直线上,此与两变量间严格的直线函数关系不同,称为直线回归(linear regression),其方程叫直线回归方程,以区别严格意义的直线方程。回归是回归分析中最基本、最简单的一种,故又称简单回归。