经常有人问我,做出一张某日新增新冠肺炎本土确诊病例各省分布图需要多久,究竟如何做得出来。我说数据提取3分钟,做图5分钟。既然大家关心,我就分享出来,欢迎转发收藏。
1、首先复制出新闻的内容,我用图片展示这一段。
2、选中增新冠肺炎本土确诊至山东1例结束。粘贴到WORD。
3、然后CTRL+H(高级替换),查找内容用“,”,替换为“^p”(可选特殊格式——段落标记),点全部替换。然后在“上海2573”的前面打个ENTER键。效果如下图。
4、下面就是数据提取了。方法比较多,都很简单。
在EXCEL中实现。全选这一段复制粘贴到EXCEL中,然后新增一行,取个标题“待提取”。选“数据”——“自表格/区域”,自动会创建表并选中你的全部数据。点确定后,即打开了“Power Query”,“拆分列”——“按照从非数字到数字的转换”,自动识别出省份及后面的内容了。再选中第二列,发现前面是数字,即“拆分列”——“按照从数字到非数字的转换”。差不多了,点“关闭并上载”。结果见下图。
其实,还可以WORD里实现,比如高级替换将例替换掉,再将数字高级替换到。然后将省提取出来放在EXCEL,然后将数据进一步提取出来。
当然,有人用PYTHON软件可能更简单。
如何做图,下一节再讲。大家有什么好的经验也可以分享。欢迎大家转发收藏点赞。
