《空间计量经济学:从横截面数据到空间面板》。是由荷兰格罗宁根大学经济与计量经济学系教授J·保罗·埃尔霍斯特撰写,并由中国人民大学出版社于2015年4月出版的一本重要学术著作。

该书不仅系统总结了空间计量经济学的最新发展,还深入探讨了从横截面数据到空间面板数据的模型构建与应用,为广大学者和研究人员提供了宝贵的参考。

PS:看这本书主要是为了了解以下概念。

1 什么是内生交互效应?外生交互效应?

内生交互效应:特定单位A的被解释变量依赖于其他单位的被解释变量。

单位A的被解释变量 y <-> 单位B的被解释变量 y

一个主体的被解释变量的取值共同取决于相邻主体的被解释变量的取值。

外生交互效应:特定单位的被解释变量取决于其他单位的独立解释变量。

单位B的独立解释变量 x <-> 单位A的被解释变量 y

理解:有关国家之间或地区之间的经济增长,不仅取决于这个经济体内部的初始收入水平、储蓄率、人口增长、技术变革等,还取决于邻近经济体的这些变量。

误差交互效应

单位A的误差项 u <-> 单位B的误差项 u

可以理解为一种校正机制,如具有寻租行为的政治家对不可预测的财政变化的校正机制。

2 空间权重矩阵的列标准化?行标准化?

空间权重矩阵的列元素表示的是一个特定单位对所有其他单位的影响。行元素代表的是所有其他单位对一个特定单位的影响。

行标准化的效应是把其他空间单位对每个单位的影响进行均等化。列标准化的效应是把每个空间单位对其他空间单位的影响进行均等化。

空间计量经济学模型的空间权重矩阵不能被估计,需要提前设定,需要进行稳健性测试

对于权重矩阵的优化可以采用最大似然、贝叶斯等方法。

3 空间溢出?直接效应?间接效应?

主要是估计空间模型中点估计的那些系数是否存在空间溢出。这种点估计可能导致错误的结论。

偏微分可以解释为不同模型设定中变量变化的影响,可以作为检验是否存在空间溢出效应假设的基础。

偏导数的三个性质:

  • 如果一个特定单位中的特定解释变量的变化不仅会改变这个单位自身的被解释变量,而且会改变其他单位的被解释变量。第一种改变称为直接效应,第二种改变称为间接效应。偏导数矩阵的每一个主对角元素代表直接效应非对角元素代表间接效应
  • 直接效应和间接效应对于样本中的不同单位来说是不同的。
  • 局部效应全局效应,取决于系数是否等于0,也可能两者皆有。

由于直接效应和间接效应对应于样本中的不同单位都是不同的,因而这些效应的表现形式是一个问题,为了简化,采用概述性指标

直接效应的概述性指标用矩阵的对角线元素的均值来度量,间接效应的概述性指标用矩阵的非对角元素的行和或列和的均值来度量。

平均的行效应代表一个外生变量的所有元素发生一个单位的变化对被解释变量一个特定元素的影响。

平均列的效应代表一个外生变量的特定元素的变化对其他单位的被解释变量的影响。

一般来说,间接效应对应于平均的列效应。

最终使用解释变量的估计的间接效应来检验空间溢出效应是否存在的假设。虽然系数整体可能是显著的,但由于解释变量较多,有的显著有的不显著,因此不能直接断定某个解释变量的显著性。可以使用最大似然估计得到方差-协方差矩阵对直接效应和间接效应的分布进行模拟。

4 什么是横截面数据?空间面板数据?

横截面数据(Cross-sectional Data)是在同一时间节点上或同一段时间内所收集的数据,它描述了多个观测对象在相同一段时间内或相同时间节点上的表现。这种数据类型的主要特点是所有观测对象的数据都是在同一时间截面上获取的,从而允许对不同统计单位(如国家、地区、公司、个人等)在同一时间点上的相同统计指标进行比较和分析。例如,2024年我国各省、自治区、直辖市的GDP数据就属于横截面数据。

空间面板数据(Spatial Panel Data)则是一种结合了时间和空间维度的二维数据类型。它不仅包含了横截面数据在同一时间点上对多个观测对象的观测结果,还进一步扩展到了时间序列数据的特点,即对每个观测对象在不同时间点上的观测结果进行了记录。因此,空间面板数据既能够反映观测对象在同一时间点上的空间差异,又能够揭示这些差异随时间的变化规律。

5 面板数据模型?

  • 固定效应模型:假设模型中的某些效应(如个体效应、时间效应等)是固定的,即这些效应在不同个体或不同时间点上保持不变。在固定效应模型中,我们主要关注每个自变项之特定类目或类别间的差异及其与其他自变项之间的交互作用效果,而不希望将这些结果推广到同一自变项未包含在内的其他类目或类别。固定效应模型通常用于处理那些我们认为在样本中保持不变,但可能对结果变量产生影响的因素。
  • 随机效应模型:将原来固定效应模型中的某些回归系数视为随机变量,通常假设这些随机变量来自某个分布(如正态分布)。随机效应模型允许我们考虑那些在不同个体或不同时间点上可能发生变化,但具有某种共同分布特性的效应。这种模型在处理具有层次结构的数据时特别有用,因为它可以同时考虑组内变异和组间变异。
  • 固定系数模型:通常指的是在回归分析中,所有自变量的系数都被视为固定的、已知的或可精确估计的。这种模型假设不同个体或不同时间点上的系数保持不变,即它们不随个体或时间的变化而变化。固定系数模型是回归分析中最基本的形式之一,它适用于那些我们认为系数不会因个体或时间差异而变化的情况。
  • 随机系数模型:是相对于固定系数模型而言的,它允许模型中的某些系数(或所有系数)是随机的,即这些系数在不同个体或不同时间点上可能发生变化。随机系数模型通常用于处理那些我们认为系数可能因个体或时间差异而变化的情况。在随机系数模型中,每个系数都被视为一个随机变量,具有某种分布特性。
  • 多水平模型:一种用于分析具有层次结构数据的统计方法。它允许我们同时考虑不同层级(如个体、家庭、学校、社区等)之间的变异性和相关性。多水平模型通过引入随机效应来处理层级之间的变异性,并允许我们估计每个层级的效应大小。

6 随机效应,固定效应,时间固定效应,空间固定效应?

  • 随机效应:关注不可控或难以完全控制的变量对结果变量的影响。
  • 固定效应:关注人为特意选择或可以人工控制的变量对结果变量的影响。
  • 时间固定效应:特别关注时间层面不随个体变化的影响因素对结果变量的影响。
  • 空间固定效应:指的是在模型中考虑到的、不随时间变化但随横截面(如地区、国家等)变化而变化的效应形式。这种效应形式主要关注于不同横截面单位之间在空间上的相互影响和差异。

7 模型的比较与选择?

  • 稳定性:拉格朗日乘子检验法
  • 拟合优度

8 空间滞后模型?空间误差模型?空间杜宾模型?

空间滞后模型,也被称为空间自回归模型(Spatial Autoregressive Model, SAR),主要用于描述因变量如何受到其空间邻近区域因变量观测值的影响。它考虑了周边区域对研究区域的影响,通过引入空间滞后项(即周边区域的因变量值)来捕捉空间相关性。常使用的估计方法包括**IV(工具变量法)、GMM(广义矩估计)和ML(最大似然估计)**等。

空间误差模型主要用于分析空间数据中的误差项是否具有空间自相关性。当传统的回归分析假设各观测值独立同分布不再成立时(即存在空间相关性),就需要使用空间误差模型来捕捉这种空间效应。

空间杜宾模型是空间计量经济学中的一个重要模型,它将空间滞后模型(SAR)和杜宾模型(Durbin Model)的特点结合起来,同时考虑了空间滞后项和空间误差项的影响。它用于分析不仅受到本地解释变量影响,还受到其他地区影响(空间滞后项)以及误差项的空间相关性影响的因变量。

9 空间自相关?空间自回归?

空间自相关(Spatial Autocorrelation)是一种统计方法,用于衡量变量在同一个分布区内的观测数据之间潜在的相互依赖性。这种相互依赖性反映了空间上邻近的观测值之间的相似性或关联性。Tobler的“地理学第一定律”指出:“任何东西与别的东西之间都是相关的,但近处的东西比远处的东西相关性更强”,这正是空间自相关概念的基础。

空间自回归(Spatial Autoregression)是一种统计模型,用于探索空间数据中的依赖性。与空间自相关不同,空间自回归模型不仅分析空间单元之间的相关性,还通过构建模型来预测和解释这种相关性。在空间自回归模型中,一个地区的观测值不仅受到其自身因素的影响,还受到其相邻地区观测值的影响。

书中对应的matlab代码:
https://community.wvu.edu/~djlacombe/matlab.html