1 min read

Instrumental Variables | 工具变量

内生性:

我们先来看个例子(引自知乎日报《哪只蝴蝶扇动了翅膀:寻找工具变量》):

我们认为以下真理是不证自明的:制度对经济增长具有很大的促进作用。 当然为了科学性也需要证明一下。考虑两个命题:

1、在控制了其他因素的前提下,由于制度较好的国家通常经济更发达,因此制度对经济增长具有很大的促进作用。

2、在控制了其他因素的前提下,由于中国 1919 年教会学校人数较多的地区通常经济更发达,因此制度对经济增长具有很大的促进作用。

相信出乎很多人意料,第二个才是比较有效的实证回归,因为第一个假设存在一个问题:不但制度(更好的产权保护,更加民主、法制等等)影响了经济发展,经济发展反过来也会影响制度。因此经济和制度之间有一种双向因果关系。这种现象在计量中被称为内生性,内生性可以说是个“大杀器”,你几乎可以拿它质疑大部分回归模型,许多经济学paper都在想方设法解决内生性问题,解决好的很多可以发到牛杂志了:)

内生性问题除了刚说到的双向因果,还有遗漏变量,和变量有测量误差,我们重点关注最常见的前两个。

先举个关于遗漏变量的经典例子,很多人都认为教育会提高一个人的工资,受教育程度高的人工资往往也高,于是我们开心地做了个回归:

$$wage = a * education + u$$

这个系数就是教育对工资的影响系数。稍等!有没有什么问题?回归系数一致且有效的一个前提假设是education和误差项u不相关,cov(X,u)=0,除了education外,一个人的能力(ability)是不是也与工资有关?而且这个能力往往还与education有关,如果不把能力放到回归项里,那它就在u里,又与education相关,违反了cov(X,u)=0。少年,回归出来的a是有偏差的,是不是很伤感?这就是遗漏变量的问题。

工具变量是啥?

再回到经济发展与制度,两者有双向因果关系,那我们能不能找个与制度有关系,但与经济没啥关系的变量,通过它的变化来间接反映制度对经济的影响,如果找到这么个变量,就可以用来当工具变量。

稍微严格一点说就是,工具变量是在回归方程中加入一个与Y和误差项z无关而和X有关的变量来解决内生性问题。学术点的写法就是Cov(Z,u)=0 and Cov(Z,X)!= 0,其中z就是那个工具变量。也就是说我们找到了一个与X有关,而与误差项u无关的变量Z。

这样原来的最小二乘回归(OLS)就要变成两阶段最小二乘回归(TSLS)。

第一阶段,把X分解成两部分,与回归误差u相关的一部分,以及与误差项无关的一部分;

$$X = a_0 + a_1*Z + v$$

其中Z是工具变量,TSLS的思想就是利用X中没有问题的部分$a_0 + a_1*Z$,忽略有问题的部分v。这个a0, a1就是第一阶段要用OLS估计的系数。

第二阶段,用OLS进行Y与回归(<>代表一阶段X的估计值)。 这两步在现在的统计软件,像SPSS,STATA里都可以直接算。关键就是能不能找到有效的工具变量。

我们举几个比较经典的工具变量的例子(需要说明的是这些工具变量都不是特别直观):

像前面说的制度与经济,Acemoglu等人(2001)找到了一个变量:殖民地死亡率。首先,殖民地死亡率意味着这个地区是适合定居还是不适合定居,死亡率高显然是不适合定居,从而决定了殖民者的策略选择。如果适合定居,那么殖民策略就是建设型;如果不适合定居,殖民者往往采取掠夺战略。也就是说通过殖民地死亡率与过去的制度类型是相关的,而过去的制度又影响了现在的制度,因此也与现在的制度相关。但同时,早期殖民地的死亡率是与现代经济发展不相关的。那么,殖民地死亡率就成为了一个很好的工具变量。

再来看一个问题:将罪犯关进监狱会降低犯罪率么?我们可以考察入狱人数增加1%(方程中的X)引起的犯罪率(Y)变化。但X与Y存在双向因果:一方面,被关的人数增长使犯罪率下降;另一方面,犯罪率下降会使罪犯数量减少,会减少入狱人数。也就是说X与Y互相影响,无法判断X到底对Y产生了怎样的影响。 这时,我们需要找到一个工具变量,与入狱人数相关,但与犯罪率无关。这样我们就可以验证入狱人数究竟对犯罪率产生了怎样的影响。经济学怪才Levitt(1996,另著有畅销书《魔鬼经济学》)找到了一个工具变量:监狱过分拥挤的诉讼数量。一方面,针对监狱过度拥挤的诉讼数量反应了监狱条件的变化,进而会影响入狱人数的变化。比如当出现关于监狱过度拥挤的诉讼时,监狱可能就会少收罪犯。因此这个工具变量与入狱人数X相关。但另一方面,监狱过度拥挤诉讼与犯罪率又没有直接关系。

当然类似的例子还有很多,国家间距离,天气情况,地震情况,河流分布等等都被拿来当过工具变量,写出过经典的文章。 像知乎日报《哪只蝴蝶扇动了翅膀:寻找工具变量》中作者写道的:

“我认为经济学的实证分析中,最好玩最有意思的是对内生性的解决,这是枯燥乏味的经济研究中为数不多的乐趣,它需要灵光乍现的巧思,还需要对经济社会各种知识的把握,各种因素的权衡。寻找工具变量的旅程就像寻找飓风的形成是由于哪一只蝴蝶扇动的翅膀,结论有时候是匪夷所思的,但是越是这样,也需要讲故事的能力。” 当然了,工具变量也有有效性的问题,一个方程中也可以用多个工具变量,具体问题留给大家使用中去了解、解决。这里想说的核心问题是:有时候我们特别想当然地把一堆变量放进去回归,算算看哪个显著就是哪个,但其实,我们绝大部分经济学回归根本就是错的。

注:文中用的Acemoglu等人研究的例子来自知乎日报《哪只蝴蝶扇动了翅膀:寻找工具变量》。