MDM基础数据管理平台是对主数据进行同步、清洗、治理、分发全生命周期的一次管理,帮助各个业务系统的主数据统一,保障它们的完整性、一致性,同步就是从主数据源头到主数据过程,治理是到主数据后进行已系列的管理和维护、分发把治理后主数据分发给各个业务系统包括源头。
MDM主数据管理平台对于数据质量的管理有两种主要途径:数据巡检和数据清洗。两者的区别在于数据巡检是针对已经存在于MDM中的数据,筛选出相似数据,相似度和相似字段可以在功能建模中进行配置;而数据清洗是在数据进入到MDM之前对数据进行校验,包括重复校验以及基于各种校验规则对数据进行清洗。
1、数据质量
数据质量,是指在业务环境下数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。在不同的业务场景中,数据消费者对数据质量的需求不尽相同,有些人主要关注数据的准确性和一致性,另外一些人则关注数据的实时性和相关性。因此,只要数据能满足使用目的,就可以说数据质量符合要求。
2、数据巡检
数据巡检主要是用来保证数据的唯一性,通过巡检功能来对数据进行查重处理来保证分发到下游业务系统的数据是唯一的。目前MDM中相似度巡检运算方式是根据多个字段的组合通过相似算法算出他们的相似百分比,然后查看是否超过配置的百分比数字,如果超过就判定为相似数据,然后记录到数据表中,还需添加新的质量校验算法,通过结果值乘以不同字段的阀值再除以阀值的相加和得出的数字进行数据巡检,巡检支持结果Excel输出,帮助客户提升主数据质量。
3、数据清洗
数据清洗就是在同步和治理过程中把主数据一些欠缺的、重复的、不符合规则的数据筛选出来,然后导出到Excel中,在Excel中调整完毕后再次导入清洗功能中直至数据全部清洗成功。
通过数据清洗功能下载主数据导入模板,源头业务系统把数据填写模板中,通过数据清洗导入功能进行导入清洗,检测出数据中欠缺的、重复的、不符合规则数据,通过导出功能把失败的数据导出到Excel中进行数据处理后,再重新导入重新检测直到所有数据成功为止,然后把所有成功的数据导出Excel中,返回给业务源头系统进行源头系统的数据清洗(源头系统添加主数据编码映射),通过主数据任务分发把标准的数据分发给业务,这样就把源头、主数据、下发至业务系统数据保持一致。
数据质量是保证数据应用的基础,它的评估标准主要包括五个方面:完整性,一致性、准确性、唯一性、及时性。数据是否达到预期制定的需求,就可以通过这五个方面来判断。
数据质量分析是数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。常见的脏数据类型包括缺失值、异常值、不一致的值以及重复值。通过分析结果对数据进行处理,从而保证数据质量。
——节选自@数通畅联《MDM数据质量应用说明》