1 描述统计分析简介

基本统计分析,又叫描述性统计分析,描述性统计主要包括数据的集中趋勢分析、数据的离散程度分析、频数分布分析等。

通常对收集来的数据进行直接的频率、频数等描述,描述性统计分析一般对样本的最小值、最大值、平均值、标准偏差等进行分析,这些数据有助于了解样本数据特征,能够清晰的看到各个统计量的分布情况。

中位数

如果有一组数据,把它按从小到大的顺序排列,将这一数列等分成两份,这个分位数称为中位数,对于奇数个数组成的数列,中位数就是中间的那个数,对于偶数个数组成的数列,中位数就是中间的那个两个数相加除以2。

由于均值受异常值的影响较大,因此用均值来估计中心趋势显得很不稳定,而中位数的优点是受异常值影响较小,估计量稳定。

众数

众数就是一组数据中出现次数最多的数。一组数据可能有一个众数,可能有多个众数,也可能没有。众数的这一性质使得其使用范围受到限制

极差

极差定义为:极差=最大值一最小值

极差越小,离散程度越小。由定义可知极差只用到了一组数据中的两个数据,而忽略了数据的分布状况等许多有用的信息,因此仅仅用极差来度量离散程度显得很不够。


2

相关分析简介

相关分析,是研究变量之间相关关系的一种重要方法; 相关分析方法,不仅可以对变量之间的相关性进行研究,正相关负相关进行说明,还可以对变量之间的相关程度进行 说明; 相关分析能 够说明变量之间相互依存关系,若是变量之间相关系数值很大,那就说明变量之间存 在很强的相关性。 相关分析目的在于研究和讨论各个变量之间的密切程度或者关联程度。对于变量之间的相关方向以及相关程度都可以通过相关分析进行统计分析,对于变量之间密切程度可以通过相关系数作为统计指标。 计算相关系数的方法一共有三种,分别为 pearson相关系数、kendall相关系数及spearman相关系数。其中 pearson相关系数是我们常用的方法。 3

回归简介


“回归”(Regression)一词最初是由英国生物学家兼统计学家F.Galton(F·高尔顿)在一篇著名的遗传学论文中引入的(1877年)。他在研究中发现,具有较高身躯的双亲,或具有较矮身躯的双亲尔,其子女的身高表现为退回(即回归)到人的平均身高趋势。这一回归定律后来被统计学家K·Pearson通过上千个家庭成员身高的实际调查数据进一步得到证实,从而产生了“回归”这一名称。

然而,现代意义上的“回归”比其原始含义要广得多。一般来说,现代意义上的回归分析是研究一个变量(也称为explained variable或因变量dependent variable)对另一个或多个变量(也称为解释变量explanatory variable或自变量independent variable )的依赖关系,其目的在于通过解释变量的给定值来预测被解释变量的平均值或某个特定值。

具体而言,回归分析所要解决的问题主要有:

(1)确定因变量与自变量之间的回归模型,并依据样本观测值对回归模型中的参数进行估计,给出回归方程。

(2)对回归方程中的参数和方程本身进行显著性检验。

(3)评价自变量对因变量的贡献并对其重要性进行判别。

(4)利用所求得的回归方程,并根据自变量的给定值对因变量进行预测,对自变量进行控制。

回归分析的对数据的要求

要进行回归分析,对数据是有一定的要求的,有学者提出了,在应用多元回归时,所分析的数据必须符合以下基本假定:

(1)正态性假定

(2)因变量的各个观察值之间必须是相互独立的。

(3)各个自变量之间不能有多元共线性关系,也就是说各个自变量彼此之间不能有较高的相关(相关系数大于0.700)。

(4)线性关系

(5)各个残差之间相互独立假定

(6)残差的等分散性假定

回归分析的基本步骤

具体地说,回归分析的一般过程分成四步,分别是:

(1)提出回归模型的假设

(2)获取数据

(3)建立回归方程

(4)回归方程的检验

一元线性回归分析

(1) 一元线性回归的基本概念

当只探究一个自变量和一个因变量之间的数学关系,同时两变量之间为线性关系时,所建立的回归模型为一元线性回归模型,可用如下公式表示:

Y = bX+a

多元线性回归分析

自然界的万事万物都是相互联系和关联的,所以一个因变量往往同时受到很多个自变量的影响。

多元线性回归的基本概念

多元回归模型是指含有两个或者两个以上的自变量的线性回归模型,用于揭示因变量与多个自变量之间的线性关系。

多元回归的方程式为:Y=b0+b1X1+b2X2+…biXi


4

高级计量经济学及Eviews应用

本文以Eviews软件为例,对计量经济学服务中心线上课程中回归分析章节我国1990至2014年相关数据进行回归分析,首先导入相关数据。 操作步骤如下:

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab一元线性回归分析

回归方 程r2要求大于多少才可信 回归方程r2的意义_回归方 程r2要求大于多少才可信_02

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab相关性分析_03

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab相关性分析_04


总结:Eviews进行相关分析,可以使用cor lny lnx1 lnx2 lnx3进行分析 然后进行回归分析,可以使用ls  lny  c  lnx1 lnx2 lnx3 lnx4 lnx5进行分析


回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab一元线性回归分析_05


5

高级计量经济学及Stata应用

描述统计分析结果代码为:

cd C:\Users\admin\Desktopimport excel 相关分析.xlsx, firstrow clearsummarize LNY LNX1 LNX2 LNX3 LNX4 LNX5


结果为:

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab相关性分析_06


以Stata软件为例,操作步骤如下:

# 相关分析 cd C:\Users\admin\Desktop import excel 相关分析.xlsx, firstrow clear corr LNY LNX1 LNX2 LNX3 LNX4 LNX5 estpost summarize LNY LNX1 LNX2 LNX3 LNX4 LNX5, detail esttab using 计量经济学服务中心.rtf, cells("count mean(fmt(3)) p50 sd(fmt(2)) min max") noobs append


结果为:



回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab一元线性回归分析_07

回归方 程r2要求大于多少才可信 回归方程r2的意义_回归方 程r2要求大于多少才可信_08

回归分析,结果为:


回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab一元线性回归分析_09


6

Python基本操作

1、导入相关库


#导入相关库import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.metrics import r2_scoreimport statsmodels.api as sm


2、导入数据


df=pd.read_excel(r'C:\Users\admin\Desktop\data\auto.xls' )df.head()



回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab回归分析sst_10

3、变量描述统计分析

# df.shape# df.info()df.describe()

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab相关性分析_11

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab 定义一个有自变量的方程_12

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab一元线性回归分析_13

4、相关分析

#  2.1 两两变量之间相关分析df['rep78'].corr(df['mpg'])# 2.2 多个变量之间相关分析corr=df[['price','mpg','rep78']].corr()corr

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab 定义一个有自变量的方程_14

5、回归分析

首先导入简单线性回归的求解类LinearRegression ,然后使用该类进行建模,得到lrModel的模型变量

# 应用sklearn工具做一元线性回归分析from sklearn import linear_modelols=linear_model.LinearRegression()# 并对模型进行拟合ols.fit(x,y)

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab一元线性回归分析_15

回归方 程r2要求大于多少才可信 回归方程r2的意义_回归方 程r2要求大于多少才可信_16

回归方 程r2要求大于多少才可信 回归方程r2的意义_回归方 程r2要求大于多少才可信_17

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab一元线性回归分析_18


7

高级计量经济学及Matlab应用

以Matlab软件为例,操作步骤如下:

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab相关性分析_19

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab 定义一个有自变量的方程_20

8

高级计量经济学及R应用

计算多组变量描述统计分析,结果为:

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab一元线性回归分析_21


计算多个变量之间相关系数方法

# 计量经济学服务中心# 导入数据library(readxl)data=read_excel(  'C:/Users/admin/Desktop/data/相关分析.xlsx' )View(data)cor1=cor(data[,c('LNY','LNX1','LNX2','LNX3','LNX4','LNX5')])cor1


结果为:

回归方 程r2要求大于多少才可信 回归方程r2的意义_回归方 程r2要求大于多少才可信_22

回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab回归分析sst_23


然后进行回归分析,结果为:


回归方 程r2要求大于多少才可信 回归方程r2的意义_matlab一元线性回归分析_24


9

参考资料