只有做好字段级分析,才能为我们后续的数据治疗打下一个非常好的基础。这也是企业最基础的一部分数据资产。
各位同学大家好!3分钟数据学院每天带给大家一个知识点。上期讲了数据盘点的第三个步骤,字段级分析。
今天来看整个数据盘点的过程中,工作量最大、遇到问题最多的环节,先看一下这两张图。第一张图:这里边的数据字典是非常完整的。字段是什么含义?它的数据类型、长度标得非常清楚。
第二张图:可以看到这里边的数据字典基本上是没有中文含义的,它只有一些英文字段的描。这个是我们的常态,在一个项目里边经常碰到的情况是,拿不到完整的数据字。我们要去了解这个字段背后的含义。所以我们做的大量的盘点跟分析,包括调研工作是去完善这部分信息。
我们还见过更夸张的,它的英文字段的命名都是加密的,看到的是一串乱码。它就是为了防止其他的人去了解它背后的含义是什么?可能也是数据安全的一种措施。
碰到这种情况,我们在做数据盘点的时候,工作量势必会增加很多。所以我们在做字段级分析的时候有两个最重要的目的。
第一个就是完善字段信息。针对这种没有数据字典、数据信息的,我们要完善它的数据信息。我们通过各种的手段去把这些原数据信息给它弥补。比如说我们跟客户一轮一轮去调研,跟我们业务调研的时候,建立的业务跟数据流的关系。我们通过走这个业务流程去倒推出来这个字段是什么含义?
总之一句话,我们通过各种的手段,尽量地去完善整个字段的原数据信息。这是我们第一个目的。
第二个目的就是在字段里边有一部分字段是一个代码项字段。比如说有一张表,它里边存的是一个性别的编码,它是用M来表示一个男性,用F来表示一个女性。我们要把这部分编码项的字段找出来,找出来干嘛?我们要跟代码项标准去建立联系。在后面的数据标准里会讲,代码项标准里边会有很多标准项,比如说它里边有一个性别的编码标准,在代码项标准里边,这个性别的编码标准下面,用1来代表一个女性。这是一个代码项标准,我们要把这个映射关系建立起来。性别这个字段要跟我们代码标准里边建立映射关系。这是为了我们后续在做数据清洗、转换、标准化的时候做一个准备。这是我们做字段级盘点的。
第二个目的总结一下就是我们在字段级分析里边,最重要的就是去完善我们的字段信息。通过调研也好,通过业务倒推也好,通过其它方式也好,去找到我们每个字段背后的信息。只有做好字段级分析,才能为我们后续的数据治疗,打下一个非常好的基础。这也是企业最基础的一部分数据资产。
这是我们今天讲的字段级分析。字段级分析讲完了,我们整个数据盘点知识点。
我们总结一下,数据盘点里边有4个步骤,第一个步骤是业务调研,第二个步骤是系统级分析。我们今天讲的字段级分析,这是一个层层递进的关系。我们今天的课就讲到这里。