分类回归的其他问题
二值选择模型的异方差问题
将模型的 与可能有关的变量进行回归
原假设的同方差假设:
备择假设的异方差:
补充单词:
Homoskedasticity
Heteroskedasticity
上面是正常的probit回归
下面是
稀有事件偏差
稀有事件偏差就是由于事件发生的少,无法正确分类
假定y=1是稀有事件,y=0为大量发生的事件
我们的二分方法本质是寻找一个分类点,将二者以最小误差进行分类。
理想点我们假设是在红线标注位置
但是由于y=1是稀有事件,在取定的样本根据误差最小的准则进行估计,其分界点是很有可能落在红线的右侧,往往会选定观测到第一个y=1的左邻域,样本的误差达到了最小,可是对于整体而言,分界点是存在偏差的,意味着在总体中把原本归类为y=1的预测为y=0。这是一种系统偏差。
两个修正方式:
补对数—对数模型
命令 cloglog y x1 x2 x3 ,r
偏差修正估计
命令 要自行下载
内生变量问题
使用MLE(利用概率的乘法公式进行分解,求似然函数,再求解参数)与两步法进行解决
介绍两步法:
1.将可能的内生变量与工具变量回归(11.28),得到残差
2.将原方程中的残差与做回归(11.31),并将回归方程带入(11.27)
3.以作为解释变量进行回归,解决内生性问题
贴图看一下:
理论可以不懂,直接上手命令运算嘛
进行普通probit估计:
假想敌:我们怀疑linc是内生变量,一个未知的小东西同时影响linc和ins
怎么办?先试试工具变量
工具变量法probit估计 (MLE方法)
最底下是沃尔德检验,原假设是,即外生性,但是P=0.0358<0.05拒绝原假设,我们认为linc是内生变量
仔细看corr(e.linc,e.ins),是高达0.6396905的,说明某一个小东西影响ins,也同方向影响linc,所以如果不采用内生性解决方法,其linc的系数是高估的,高估了它的影响。
下面聊聊两步法
两步法probit估计
是不是系数被估计大了,这是因为的原因,看上面的两步法原理要估计的公式
双变量Probit模型
概念
书中的例子是举了看医生与住院的例子,二者存在相关性
双变量probit模型:指两个方程的解释变量X相同
似不相关双变量probit:两个方程的解释变量X不完全相同
这些原因会导致不等于0
双变量Probit操作
命令:
示例:
根据最后一行的沃尔德检验,P=0.4049>0.05,认为不必使用双变量probit模型。进一步验证:
其结果与使用双变量回归相似,故可以认为不需要使用双变量probit模型
部分可观测的双变量Probit模型
对于一些模型而言,我们只能观测到其结果,而无法观测其分量
也就是说
对于,我们只能在1时确定,在0时无法确定具体取值。
通俗来讲,我们只能获取结果,但无法观测过程。
演示:
拒绝,认为十分有必要进行部分可观测的双变量Probit模型