一、预备知识介绍

     为什么需要统计量?

     统计量:描述数据特征

    1. 集中趋势衡量

           1.1 均值(平均数,平均值)(mean)

                        

机器学习线性回归均方根误差 线性回归方程平均数_数据

1.2 中位数(median):将数据中的各个数值按照大小顺序排列,居于中间位置的变量。

                  当n为奇数时,直接取位置处于中间的变量

                  当n为偶数时,取中间两个量的平均值

            1.3 众数(mode):数据中出现次数最多的数

     2.离散程度衡量 

        2.1 方差(variance)

                   

机器学习线性回归均方根误差 线性回归方程平均数_数据_02

         2.2 标准差(standard deviation)

               

机器学习线性回归均方根误差 线性回归方程平均数_机器学习线性回归均方根误差_03

 

二、介绍:回归(regression) 分类(classification)

       回归: Y变量为连续数值型(continuous numerical variable)

                如:房价、人数、降雨量

       分类: Y变量为类别型(categorical ariable)

                如:颜色类别、电脑品牌、有无信誉

三、简单线性回归(Simple Linear Regression)

         很多做决定过程通常是根据两个或者多个变量之间的关系

         回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联

         被预测的变量叫做因变量(dependent variable),y 输出(output)

         被用来进行预测的变量叫做自变量(independent variable),x 输入(input)

四、简单线性回归介绍

一个自变量(x)和一个因变量(y)

一条直线来模拟

两个以上的自变量,则成为多元回归分析(multiple regression)

五、简单线性回归模型

        被用来描述因变量(y)和自变量(x)以及偏差(error)之间关系的方程叫做回归模型

模型:

                           

机器学习线性回归均方根误差 线性回归方程平均数_方差_04

其中:

机器学习线性回归均方根误差 线性回归方程平均数_机器学习线性回归均方根误差_05

为参数,

机器学习线性回归均方根误差 线性回归方程平均数_数据_06

为偏差。

六、简单线性回归方程(模型求期望)

                 

机器学习线性回归均方根误差 线性回归方程平均数_机器学习线性回归均方根误差_07

             这个方程对应的图像是一条直线,称为回归线。

            其中:

机器学习线性回归均方根误差 线性回归方程平均数_方差_08

是回归线的截距                   

机器学习线性回归均方根误差 线性回归方程平均数_方差_09

 是回归线的斜率                   

机器学习线性回归均方根误差 线性回归方程平均数_方差_10

是在一个给定x值下y的期望值(均值)注意:这里就没有

机器学习线性回归均方根误差 线性回归方程平均数_数据_11

了,因为

机器学习线性回归均方根误差 线性回归方程平均数_机器学习线性回归均方根误差_12

服从正态分布,期望为0

七、正向线性关系

机器学习线性回归均方根误差 线性回归方程平均数_机器学习线性回归均方根误差_13

 八、负向线性关系

机器学习线性回归均方根误差 线性回归方程平均数_线性回归_14

 九、无关系

机器学习线性回归均方根误差 线性回归方程平均数_线性回归_15

十、估计的简单线性回归方程

机器学习线性回归均方根误差 线性回归方程平均数_线性回归_16

       这个方程叫做估计线性方程(estimated regression line)

        其中:

机器学习线性回归均方根误差 线性回归方程平均数_方差_17

是估计线性方程的截距                    

机器学习线性回归均方根误差 线性回归方程平均数_方差_18

是估计线性方程的斜率                   

机器学习线性回归均方根误差 线性回归方程平均数_数据_19

是在自变量x等于一个给定值的时候,y的估计值

十一、线性回归流程

机器学习线性回归均方根误差 线性回归方程平均数_机器学习线性回归均方根误差_20

 十二、关于偏差

机器学习线性回归均方根误差 线性回归方程平均数_方差_21

的假定

                  是一个随机的变量,均值为0

                  方差对于所有的自变量x是一样的

                  值独立的

                  满足正态分布