目录
1. 数据来源以及变量详目
2. 模型设定以及初步回归
3.内生性问题校正
4.结果报告
5.总结
1. 数据来源以及变量详目
1.1变量一览表
实验报告的数据来源于J.M.伍德里奇.计量经济学导论(第三版)中有关已婚女性受教育程度以及工资水平的问题。(这篇报告不涉及exper和expersq,感兴趣的可以做多元回归)
表格1: 部分变量一览表
变量类型 |
变量简称 |
变量全称 |
数据来源 |
---|---|---|---|
被解释变量 |
lwage |
工资水平的对数 |
J.M.伍德里奇.计量经济学导论(第三版) |
解释变量 |
educ |
受教育水平 |
|
exper |
工作年数 |
||
expersq |
工作年数的平方 |
||
huseduc |
丈夫的受教育水平 |
||
motheduc |
母亲的受教育水平 |
1.2数据描述性统计
表格2: 变量描述性统计
统计量 变量 |
Obs |
Mean |
Std.Dev. |
Min |
Max |
lwage |
428 |
1.19 |
0.72 |
-2.05 |
3.22 |
educ |
428 |
12.65 |
2.29 |
5 |
17 |
exper |
428 |
13.04 |
8.06 |
0 |
38 |
expersq |
428 |
234.72 |
270.04 |
0 |
1444 |
huseduc |
428 |
12.61 |
3.04 |
4 |
17 |
motheduc |
428 |
9.52 |
3.31 |
0 |
17 |
use ex1.dta,clear
su
2. 模型设定以及初步回归
2.1 OLS 模型
2.2 回归结果
reg lwage educ
这里只是演示这个流程,适合初学者自学或者课下再学。没有使用【option】中的robust进行异方差稳健标准误下的回归,请读者自行忽略。
表格3: 初步回归
b/t |
lwage |
educ |
0.109 |
(7.55)*** |
|
_cons |
-0.185 |
(1.00) |
|
R^2 |
0.12 |
Prob>F |
0.0000*** |
N |
428 |
**p<0.05 |
***p<0.01 |
2.3 回归结果分析
由回归结果可知,多接受一年教育可以得到10.9%的回报,即已婚职业女性受教育水平每提高一年会使得其工资水平在1%的显著性水平上上涨10.9%。从回归模型中可以推测,随机干扰项u中含有其他影响教育水平的因素,比如个人能力、所在地区、个人智商等因素。从而产生遗漏变量问题,进而违反了经典OLS假设:
3.内生性问题校正
由上文讨论可知,原模型可能的内生性问题,因此考虑使用工具变量法来校正由此造成的参数估计值的偏误。
3.1工具变量法
工具变量法是指当怀疑内生变量存在时,引出一个与该内生变量显著相关但与随机干扰项并不相关的变量来拟合这个内生变量对被解释变量的影响。即该工具变量应该满足以下两个要求:
① cov(Z,x) ≠ 0 ;② cov(Z,μ) = 0
通过图示可知:x对y有显著影响,ε和x有显著关系,而X对y也有显著关系,而X并不在回归模型之中,包含在了u之中。如果X与x有显著相关关系,就会导致内生性问题,这是由遗漏变量导致的。而Z与X不相关,Z与μ不相关,但与x有显著相关关系,因此可以用Z来作为工具变量来进行衡量。
比如,已婚女性薪酬与个人能力、个人智商等变量密切相关,而其受教育水平也与个人能力、个人智商相关。而模型中未加入这些变量,可能是无法测量,或者是没想到可能存在的相关变量。
3.2 两阶段最小二乘
拟选定huseduc(丈夫的受教育水平)和motheduc(母亲的受教育水平)两个变量作为工具变量来拟合educ(自身受教育水平)对lwage(工资的对数)的影响。利用两阶段回归来探讨。
ivreg lwage (educ = huseduc motheduc),first
可以发现educ与huseduc & motheduc是存在极显著的相关关系的,因此满足第一个适用条件。我们先报告第二阶段回归结果再来进行第二个条件的检验以及判断educ是否为内生性变量的检验。这两个回归报告都可以用上面一行代码进行实现。
再结合结果可知道huseduc和motheduc作为工具变量发现能够极为地显著拟合educ对lwage的影响。但是还没有检验educ的内生性和两个工具变量的外生性。接下来就需要对这两个问题进行检验。分别是豪斯曼检验和过度识别约束检验。
3.3 豪斯曼检验(stata手工代码)
具体什么是豪斯曼检验笔者会在后续文章中详细介绍。简言之就是判断怀疑的内生变量是否为内生变量的检验方法。
qui reg lwage educ huseduc motheduc
predict v,residuals
reg lwage educ v
test v=0
结果报告:
因此拒绝原假设,认为残差的系数不等于0,即原模型中educ和随机扰动项μ显著相关。
3.4 过度识别约束检验(stata手工代码)
具体什么是过度识别约束检验笔者会在后续文章中详细介绍。简言之就是判断两个工具变量是否是同期外生变量。
qui ivreg lwage (educ=huseduc motheduc)
predict e1,residuals
reg e1 huseduc motheduc
test huseduc=motheduc=0
结果报告:
因此不拒绝原假设,认为huseduc和motheduc的系数同时为0,即两者是同期外生性变量。即满足相关假设。
4.结果报告
表格4: 回归对比
模型 变量 |
m_ols |
M_2sls |
educ |
0.109*** |
0.074*** |
b/se |
(0.014) |
(0.227) |
cons |
-0.185*** |
0.255*** |
b/se |
(0.185) |
(0.289) |
如前文所述,根据初步ols回归结果表示,多接受一年教育可以得到10.9%的回报,即已婚职业女性受教育水平每上涨一年会使得其工资水平在1%的显著性水平上上涨10.9%。而根据IV回归结果,educ的参数估计值在1%的显著性下显著,表明已婚女性受教育水平每提升一年,就会使得其工资上涨7.4%。比OLS估计值低3.5%,这表明初步OLS估计值过高。并且经过豪斯曼检验,educ确实是内生变量;经过过度识别检验,认为huseduc和motheduc同时为外生变量。该工具变量回归能够有效的校正educ的内生性问题并拟合educ对lwage的影响。
5.总结
① 工具变量选取
② 两阶段最小二乘
③ 豪斯曼检验
④ 过度识别约束检验
⑤ 结果报告
在最后,笔者是大二经管专业刚接触计量经济学的相关知识,目前在做psm-did,在这方面也仅仅是入门水平,初期文章只适合初学者自学或课后练习。非常希望能在CSDN发文的过程中加深对知识点的理解,和大家共同记录成长过程!