关注二幺幺统计:课堂公众号可以加入学术交流群、免费获得各种数据资源。

大家好,我是王老师。第一节课我们一起学习了倾向得分匹配法的原理和主要内容。这节课我们进入实操环节,一起学习StatSO相关操作。在data中进行StatSO分析,依次需要进行的操作是导入数据筛选促变量,Na2SO匹配和平衡性。假设检验细心的同学可能会发现这个流程图跟前面出现的一个流程图不太一样。确实这个流程图没有计算倾向匹配得分这个环节就是因为执行SBS匹配命令时SBS会自动计算匹配得分再进行匹配,因此计算匹配得分不需要单独操作。

我们以一九八六年发表在权威经济学期刊美国经济评论上的一篇文献为例,尝试按照这个流程进行Stat分析。这篇论文讨论的是美国在二十世纪七十年代中期开展的一项职业培训项目,如何影响居民收入的问题。

首先让导入数据,打开Stat,用Stat打开数据文件。

输入Stat命令可以先总揽一下数据的情况,这是所有的变量,样本一共有四百四十五个,在窗口的右边是变量窗口,可以看到每一个变量的具体含义。

总揽过后来思考研究的问题是参与职业培训对收入的影响,也就是参与职业培训的人和没参与职业培训的人之间的收入差距。回想一下第一节课中的例子、小卡接受了职业培训,我需要找到合适的对照样本,也就是找一个合适的没有接受职业培训的人来和他和小张比较。

什么样的人是合适的人?就是除了没有接受职业培训,其他特征都跟小张十分相似。关键在于其他特征具体指什么?第一节课举了一些特征,包括年龄、学历、性别、家庭收入、户籍。但这只是粗糙的举例,如果进一步的全面思考还可以想到更多的特征变量,比如说个体是否结婚,是否是少数民族等等。

应该尽可能的思考什么样的特征因素会影响到他参与职业培训思考的过程。一方面是根据常识和基本判断,另一方面是更重要的,要大量阅读权威文献来获取一些思路。

在想到可能的特征变量之后应该注意,这只是初步判断,他们是否要真正的作为显变量放入分析中。需要对变量进行选择和筛选才知道符合条件的才能进行下一步的分析。所以在Stat分析之前首先要做的工作就是筛选鞋垫量。筛选鞋垫量的命令是Offa中需要对命令进行安装,因为这是外部命令,输入这个命令就可以让sata把命令安装完成。来看一下这个命令的具体内容。

黑体加粗部分是命令的名称,PSestimate蓝色代表的是处理变量,也就是标记个体是否未处理。在例子中的含义,就是个体是否参与了职业培训中括号中的Stat,选填的第一项内容填的是我们认为的可能有影响的变量,放在这里面让Stata进行筛选。

第二个选项no。try加变量,这个部分如果填上去就指定了,这个它可以不用参与分析。如果不填Stata就默认没有,不需要挑出来的变量。nolan代表的是指定不进行一阶的。

一阶的选择no 96代表的是指定不进行二阶多项式选择。cl i noreal代表的是一直写变量四氢笔检验的门槛值,默认值是一下,一个就是代表的二阶求变量的四燃笔检验门槛值。如果不具体指定那他的默认值是二点七一,在下面一个选项指定是每个老铁的中执行循环的最大值,默认值是一万六千。

倒数第二个指的是程序自动生成的,用于记录得分值的新变量的名称,可以进行自定义。

最后一个代表的是生成对数四安比的新变量的名称,也可以进行自定义,也可以不填,把这个具体的命令输入state中进行操作一下。先看一下除了面料名称处理变量器,我们认为肯定可以作为斜变量的,是e d进行需要进行分析和筛选的有四个变量,输入进去让c塔进行分析,可以看到c他很快把结果运行出来了。最终的结果是除了education你本来放入的斜变量中,斜变量之外还有四个还有三个变量。

一个一阶形式的变量是no.d和黑线,i s.c二级斜面量是这一个斜面量。也就是说c塔告诉你这四个斜面量可以放入ps 肌匹配中进行下一步的分析。

所以我们就进行ps m匹配,ps m匹配的命令也是需要外部安装的一个,把这个命令输入到stata中让stata进行安装。具体来看一下这个命令的内容,蓝色依然前面一样是处理电量,括号中的i n d v2就是刚刚筛测出的四个鞋面量可以用来使用的鞋面量。

后面的LTE不分,这里截取的是一部分比较常用的选项。我们来具体看一下outcome括号里面加的是结局变量也就是被解式变量。ps score代表的是给生成的倾向得分匹配值,命个名。Stata指定的是匹配比例,如果是一比一匹配那就是number。