1分钟入门数据分析,我要10秒!合并两张表

毫不夸张,数据分析的核心在这10秒。

搞清楚,就入门做数据分析,

搞不清楚,就做老板既要又要还要。[呲牙]

前面,我们首先打开了一张Excel表panda0;

在它的第2个sheet里,

我们发现了5列,就是5个变量;

ID,名,姓,年龄,收入;

然后,我们打开了一张CSV 表,

我们发现了4列,就是4个变量;

ID,名,姓,邮政编码;

Q3 来了:把这两张表汇总起来,

我们要一个新表Panda2.

Panda2包含6列,6个变量;

ID,名,姓,年龄,收入,邮政编码;

是不是挺简单?

复制邮政编码到panda0的最后一列,OK?

太天真了,ChatGPT一开始就是这么做的。

直到我问它:你不考虑ID 重复的问题吗?

它郑重道歉。

是的,数据分析师就在这里发挥作用。

你根本不能保证,两张表各自会不会有重复,

在你用最严谨的方法清理之前,

默认所有的数据都是”脏“的。

必须首先考虑清楚ID的重复项;

其次,两张表的连接方式,

Excel有6种:

左外部,右外部,完全外部,

内部,左反,右反。

差之毫厘,失之千里。

这里搞不对,后面的功夫全白费。

我在GIf 里做合并的展示,

共有11个步骤,

仅仅是为panda0 添加一个邮政编码。

坐直了,很严肃的说:

10秒到,对大部分人的工作来说,

正确的合并两张表,

就是他的全部工作。

最重要的工作!

合并两表做不对,

所有功夫全白费!