excel中的PQ(数据清理)有什么用?
举个例子,比如某销售公司年度销售信息要维护表格。年度销售信息是个大数据表格,一个子公司比如一天就有五六十行数据,一天就五六十行,那么一年不是365天算下来就2万多行,2万多行了已经,这是一个子公司,假设20个子公司那就是30多万行,这些数据还分布在十几个单独的Excel表格中。
注意十几个单独的Excel的工作簿都不一样,十几个表格你得同时要打开很多表格,然后每个表格又有十几个工作表。一个表格叫工作簿,里面不是有一个tab叫工作表。你这个30万行数据是放在十几个工作簿,每个工作簿里面有十几个工作表,而且这里面很多数据还没有用。
比如说做销售分析的时候可能只需要用到销售子公司的名字,然后销售量销售金额什么时候卖的日期,包括销售员的名字最多就这些数据了。还有一些数据不用的,比如说销售子公司的代码,销售产品的代码,这个不要要它干什么,但是它数据里面是有的。
最麻烦的是什么呢?这些原始数据还不是直接拿来就能用的数据,它可能是销售后台软件出来的,或者ERP的某个软件出来的非标准格式。什么叫非标准格式?比如说出来的没有对齐,这个地方不应该合并了,给你合并单元格。数字不是以数字的形式出来的,是以文本的形式出来的,这些都不一样的等等这些。
那么这个时候如果你再用传统的Excel来做数据处理,那你苦死了,工作量大了去了,真的是天天做这个事都做不干净,然后做到后面效果还不好。这个时候就要用到现在讲的PQ了。
所以PQ什么叫数据清理?就是对这些大数据将大量的非标准的,而且是有些无用的信息清理成为标准的直接拿来就可以分析用的,且是有用的或者说针对需求要用的数据,这个把它清理出来就洗一洗,洗干净,把数据洗一洗。
经常这么说,这个就是PQ的功能,洗干净的数据以后再用来做分析、建模,那是PP的事了,所以这个是PQ的功能是这个概念。