关注Stata数据处理课堂公众号可以加入学术交流群,免费获得各种数据资源。每天一大步,成长一大步,厚立薄发,打开知识的大门。hello大家好,我是Stata老师。好,今天继续来进行Stata数据处理技巧与技长分析的课程学习。下面已经给大家介绍了三个专题。
·前面三个专题应该是对Stata软件的介绍以及自然经济学的一些基础的介绍。这一节课就从第四个专题开始给大家介绍一下具体的实证过程,包括哪些方面的内容?
第一点,这第四个专题是每个时政分析都必须要解决的一个问题,就是描述统计和相关分析,当然更重要的是描述统计。这部分预计是通过一个课时的时间就可以把这个内容给大家介绍完毕。
下面就开始来讲一讲这个描述统计跟相关分析这两个部分的内容。
第一点是描述统计,描述统计应该是每一篇论文包括大小论文都要面临的。
第二点开始开始的一个问题,所谓的描述统计想要达到的效果是怎么样的?包括有以下四个方面:
第三点是对数据形状有一个大致的描述,是高是矮还是胖是瘦,有一个整体的一个形状的描述。
第四点是对每个变量的集中趋势和离散趋势的描述,就每个器官的工作机会。
就比方说我每个人有多少个眼睛,多少个嘴巴,多少个手,多少只脚,以及每个器官,它的一些基本的一些医学的变量。比方说面积、体积,还有是联通的器官的个数等等等等。
第三点是特定的数据需要对数据分布情况进行描述,比方器官的数量。
第四点是数据处理的方法和步骤。比如说要先要对某个指针,没有直接就给出来的结果,比方说要算一个全是生产率,要通过一定的方法数据处理的方法把它计算出来才能做描述统计。
所以其实看起来描述统计是很简单,但是在做描述统计之前要做的是把数据进行清理整理,包括合并的以及相关的指定的计算等等等等的工作。所以如果数据已经能够达到了做描述统计的这么一个阶段,其实时针过程已经开始了,也就表明你的数据前期的处理和清洗也基本上是已经完成了。
就比如在论文里面,他的描述统操Stata数据是怎么做的呢?比方说这一个表述会有关键的三个变量,可以单独把它列成一个表格对它们进行一些描述。可以看到表一,就是改革措施有三个方面符号,是用哪些怎么样来代替的,有样本数。
其实在这里我建议大家写的是样本容量,这个是最为标准的一个描述的方法,然后均匀、标准、最小值、最大值,一般就包括这几个方面就行了。这三个虚拟变量的描述方法。
当然了,在时政分析里面要把它纳入到模型里面的全部的变量,都要做一个描述统计的表格。也就是说不仅要对核心的解释变量,要把它列出来,也要把控制、容量也要把它列出来。比方说这里其他变量说明就包括在模型里面涉及到的一些控制变量等等的一些数据情况,也是格式也是类似量的含义符号。后面就是样本容量、阈值、标准差、最小值最大块值,后面表格就从符号开始这一列,往后的都可以用state直接就能够把它导出到excel里面,然后把它复制到文档里面就可以了,可以直接的使用的,只是做一只需要做一些简单的处理。
在具体的讲,不同类型的描述统计指标的。先给大家讲一个小段子。段子怎么样呢?比方说一个人能够让它感到非常舒适的温度是二十五摄氏度,这是整个人感觉比较非常的舒服、舒适的温度。好,这个平均的二十五摄氏度是一个平均的还是一个总体的一个指标呢?单纯是说我这个人平均的温度是处于二十五摄氏度,里面能否足够说明这个人已经就处于非常舒适这么一个状态呢?显然是不行的。
比方说从头、脖子、肚皮、大腿和脚底这五个位置分别做一个监测点。这个温度的监测点,平均温度二十五摄氏度当然有,可以是头、脖子、肚皮大腿和脚底每个位置都是二十五度。当然了也可以有另外一种的方式,比方说平均二十五度就是肚皮的温度是二十五度,然后脖子是零度,头是负二十五度,然后大腿是五十度,脚底是七十五度。你试想一下,如果处于这么一个温度的范围里面,你会感觉到舒适吗?显然是不行的。
为什么呢?因为这里只描述了平均的二十五摄氏度,这是集中强势的指标。在描述统计的分类里,它代表的是位于这么一个总体的水平,当然了还需要结合离散程度。如果说这五个温度、监控点,等于零是什么意思?就是这五个温度监测点之间是没有差异的,然后均值又是二十五度,那意味着什么?就是这五个间温度的间测点都是二十五度,因为只有这样它才能保才能使得标准差是等于零的。否则只要它至少有两个数据不相等,那么标准差肯定是大于零的。
所以说通过这么一个小段子就给大家介绍一下,在描述统计时候不仅仅要报告集中去,是还需要报告离散趋势。因为这两者仅报告其中一个都有可能会发生一些令人讲话的矛盾出现。
下面就给大家介绍一下描述统计的一些指标分类,那么它主要是分成两类,一类是表示指标中趋势的,有均值,中位数纵数,它都表示集中趋势的。前面两个均值和中位数是比较重要的,一般在时政分析里面都要报告均值和中位数,但是中数就用的比较少。