人口数据是我们在各项研究中最常用的数据之一。人口数据的主要来源是我国每十年进行一次的人口普查,最近一次的人口普查是2020年进行的第七次人口普查,简称七普!很多小伙伴对七普数据翘首以盼,最近《2020中国人口普查分县资料》终于出版了,有些公众号也发布了该资料的PDF版本,为了方便大家使用我们在PDF的基础上处理成了excel和shp格式的数据分享给大家!

我们之前分享了《2020中国人口普查分县资料》的表1——人口基本情况、表2——分年龄、性别的人口、表3——各年龄组人口占总人口的比重、有65岁及以上老年人的户数、户口登记在外乡镇街道人口、表4——人口受教育状况和表5——各职业大类人口。(表1-表5的具体介绍均可查看之前推送的文章)

本次分享的是表6——各行业门类人口!该表统计了我国省市县三个行政等级的各行业门类人口数,具体指标包括:

  1. 16岁及以上人口
  2. 各种行业人口总计
  3. 农、林、牧、渔业
  4. 采矿业
  5. 制造业
  6. 电力、热力、燃气及水生产和供应业
  7. 建筑业
  8. 批发和零售业
  9. 交通运输、仓储和邮政业
  10. 住宿和餐饮业
  11. 信息传输软件和信息技术服务业
  12. 金融业
  13. 房地产业
  14. 租赁和商务服务业
  15. 科学研究和技术服务业
  16. 水利环境和公共设施管理业
  17. 居民服务修理和其他服务业
  18. 教育
  19. 卫生和社会工作
  20. 文化体育和娱乐业
  21. 公共管理社会保障和社会组织
  22. 国际组织

为了方便大家使用,我们花了大量的时间对数据进行了整理,形成了excel和shp两种格式的文件!整理出的数据缺失港澳台地区。对于数据整理的细节我们会在下文详细介绍!以下为数据的详细介绍:

01 数据预览

下面我们来预览下数据,首先是excel格式的数据,如下图!省市县三级的所有指标在一个excel中,省市县的数据通过不同颜色分割,方便大家可以在excel中按照颜色选取不同等级的数据!每个指标的单位也标注在列名中!

下面我们再来看看shp格式的数据!分为三个shp文件,分别为省份的各行业门类人口、地级市的各行业门类人口、区县的各行业门类人口!

1.省份的各行业门类人口

我们以全国各省份的制造业人口建筑业人口两个指标为例来预览下,数据不包括港澳台,剩下的所有省份均有数据,如下图:

全国各省份的制造业人口

全国各省份的建筑业人口

2.地级市的各行业门类人口

我们以全国各地级市的金融业人口房地产业人口两个指标为例来预览下,数据不包括港澳台,剩下的所有地级市均有数据,如下图:

全国各城市的金融业人口

全国各城市的房地产人口

3.区县的人口各行业门类人口

我们以全国各区县的科学研究和技术服务业人口文化、体育和娱乐业人口两个指标为例来预览下,数据不包括港澳台,剩下的所有区县均有数据,如下图:

全国各区县的科学研究和技术服务业人口

全国各区县的文化、体育和娱乐业人口

02 数据整理说明

本数据来源于《2020中国人口普查分县资料》,想得到最终的excel和shp数据,需要做两个工作,第一个是将数据电子化,形成excel格式的数据第二个是将excel数据矢量化,得到shp格式的数据!

对于将PDF电子化,主要是要选择合适的视图软件,在这儿推荐wps(识别数字比较准确)和全能扫描王(识别汉字比较准确),在识别后要对识别错误的数据进行修改,比如错误的符号,错误的字母等,最后还要对数据进行检查,比如可以通过总人口是否等于男性人口+女性人口来检查这三列数据有没有错误!

我们重点来看一下第二步——将excel数据矢量化,得到shp格式的数据!对于将excel矢量化成shp数据,我们需要首先找到一个高精度的全国省市县的行政区划shp数据,在经过对比后,我们使用了‘锐多宝的地理空间’公众号分享的行政区划shp数据!有了行政区划数据,下一步的重点工作是将excel数据根据公共列(省名称、城市名称、区县名称)链接到行政区划shp数据里面,这一步会有很多错误,需要一一检查,我们依次来看一下!

1.将省份层级的excle数据矢量化形成shp数据

由于我国只有34个省级行政单元,excel数据和shp数据里面的省份名称是完全对应的,我们不用经过任何处理,使用arcgis中的连接功能,以省份名称为连接列,直接链接就能得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!

2.将地级市层级的excle数据矢量化形成shp数据

我国有300多个地级市行政单元,这300多个行政单元的名称都是唯一的,没有重复,所以也可以直接连接得到最终的数据!该数据除了港澳台地区以外,没有任何缺失值!

3.将区县层级的excle数据矢量化形成shp数据

相比于省份层级和地级市层级,区县等级的处理要复杂得多,需要大量的工作!主要包括如下几个方面:

①我国的区县名称并不是唯一的,比如全国有四个城市有鼓楼区,有两个城市有朝阳区,有两个城市有宝山区,全国重复的区县名称大约有60个,对于这些区县,如果直接根据区县名称进行连接会出错,需要一一进行处理,这儿的处理方式是将区县前面的城市和省份加上,这样区县名称就是唯一的啦,就可以进行连接了!

②我们使用的‘锐多宝的地理空间’公众号分享的行政区划shp数据虽然精度很高,但是依然有一些和基于《2020中国人口普查分县资料》整理的excel数据不对应的区县!这儿分为两种情况,第一种是有些已经调整的区划,行政区划shp数据里面没有跟着调整,对于这样的问题,我们以以excel数据为准,对行政区划shp数据进行调整,包括:

  • 河北省邢台市进行了行政区划大调整,桥西区改为了信都区,桥东区改为了襄都区等,在这儿就不一一列举了,对行政区划shp数据进行相应调整;
  • 海西蒙古族藏族自治州直辖改为海西蒙古族藏族自治州大柴旦行政委员会
  • 南沙市改为南沙群岛
  • 烟台蓬莱市和长岛县合并为蓬莱区
  • 成都新津县改为新津区
  • 江西省龙南县改为龙南市

另外,在《2020中国人口普查分县资料》中还统计有大约100个地区在行政区划shp数据里面没有包括,比如比如石家庄高新技术产业开发区、河北唐山芦台经济开发区、唐山市汉沽管理区、荆州经济技术开发区济南高新技术产业开发区等!我们观察下来这些数据基本都是开发区、产业园区,而行政区划shp数据里面没有统计这些开发区、产业园区!对于这些开发区也很难找到精确的行政边界,所以在最终的shp数据中我们直接忽略了这些数据。excel版本的数据中是包括了这些开发区、产业园区的,大家如果想要使用这些数据请使用excel数据,特此说明!

03 数据获取