1分钟入门数据分析,我要10秒!合并两张表
毫不夸张,数据分析的核心在这10秒。
搞清楚,就入门做数据分析,
搞不清楚,就做老板既要又要还要。[呲牙]
前面,我们首先打开了一张Excel表panda0;
在它的第2个sheet里,
我们发现了5列,就是5个变量;
ID,名,姓,年龄,收入;
然后,我们打开了一张CSV 表,
我们发现了4列,就是4个变量;
ID,名,姓,邮政编码;
Q3 来了:把这两张表汇总起来,
我们要一个新表Panda2.
Panda2包含6列,6个变量;
ID,名,姓,年龄,收入,邮政编码;
是不是挺简单?
复制邮政编码到panda0的最后一列,OK?
太天真了,ChatGPT一开始就是这么做的。
直到我问它:你不考虑ID 重复的问题吗?
它郑重道歉。
是的,数据分析师就在这里发挥作用。
你根本不能保证,两张表各自会不会有重复,
在你用最严谨的方法清理之前,
默认所有的数据都是”脏“的。
必须首先考虑清楚ID的重复项;
其次,两张表的连接方式,
Excel有6种:
左外部,右外部,完全外部,
内部,左反,右反。
差之毫厘,失之千里。
这里搞不对,后面的功夫全白费。
我在GIf 里做合并的展示,
共有11个步骤,
仅仅是为panda0 添加一个邮政编码。
坐直了,很严肃的说:
10秒到,对大部分人的工作来说,
正确的合并两张表,
就是他的全部工作。
最重要的工作!
合并两表做不对,
所有功夫全白费!