质量实施方法
数据质量领域研究学者和专家结合自身实践,先后提出了一系列质量管理得项目实施方法,其中以全面信息质量管理、全面数据质量管理、数据管理十步法、六西格玛等。
与传统数据质量管理一样,数据GIGO规则仍然发挥作用,但在由于大数据的多样性、广泛性和价值密度低等特性,使得对“垃圾数据”的认识存在较大得差异。在具体项目实施过程中,可分为“定、测、析、改、控”五个阶段,需要特别说明的是,在定义阶段,必须考虑大数据质量特性,明确大数据质量分析得维度,如考虑多样性、广泛性、价值密度低等特点。
- 定义:明确业务需求,定义项目范围,所需得资源,为项目确定以业务需求一致得成功衡量指标,即确定数据质量分析的维度、规则、评估指标等,尤其是内外部数据管理、多源异构数据整合、内外部数据一致性控制、冷数据和热数据得融合、数据重用等需求,从而为数据质量分析提供标准和依据。
- 测量:根据数据质量测量分析维度、规则等,对选定得数据进行检查
- 分析:根据检查的结果,进行评估分析,找出存在得数据问题,以及问题的主要原因,生成并提及数据质量改进方案报告
- 改进:根据数据质量改进方案报告,对数据做出改进,提升数据质量
- 控制:建立长效机制,将质量工作纳入业务流程管理中,保持持续保证数据质量得提升。
定义阶段
大数据质量管理定义阶段是规划阶段,主要目的是确定数据质量管理得范围,定义完成对任务包括确定数据治理管理目标,获取数据质量需求,根据需求内容选择需要控制数据质量得业务和系统范围和评估方式。
- D1定义数据质量管理目标
数据质量管理是希望通过一系列数据管理手段,在业务和技术部门协同配合下,保证数据满足业务流程管理、风险管控和价值创新、分析的需要。为设定的业务目标提供数据支持,该目标就是数据质量管理的业务目标。
- D2定义数据质量管理需求
数据质量管理需求是对数据质量管理目标的细化,从所支持的目标应用功能角度提出的数据质量范围及状态定义。
数据质量管理需求是确定数据质量管理范围、设计数据质量规则、选择关键质量评估指标,是确定数据质量改进方案和持续性进行质量控制的信息基础。
数据质量需求一般有三种方法:
– 经验总结方法:针对已发现的数据质量问题提出质量管理需求。
– 业务流程、管理需求分析方法:在分析组织业务流程、管理需求过程中提取其中数据质量要求。
– 业务创新、价值创造的分析方法:根据业务战略规划和创新需求,组织可以通过借鉴行业或者外部同类业务需求提出初步需求,在结合业务发展过程中,提出详细需求。例如:某金融组织可以在业务需求的基础上,结合客服中心客户投诉录音进行情感分析,开发有效的客户服务手段,提高客户的满意度。
- D3定义数据质量管理范围
根据数据质量需求来确定数据质量的管理范围,一般可分为业务范围、技术范围和系统范围。
– 业务范围:业务范围一般根据数据的质量需求中的数据范围来选择,每个业务下的关键数据项作为数据质量管理的内容,根据数据质量管理需求,确定需要进行质量管理的数据项所涉及的业务范围,作为后续选择数据质量管理系统范围的依据。
– 系统和技术范围的确定:根据数据质量管理业务范围和系统环境定义,选择需要管理数据质量的应用系统、数据字段作为数据质量管理的系统范围和技术范围。在应用范围和数据范围确定后,根据系统应用架构和数据流架构的定义,选择关键应用系统数据源作为数据质量管理的控制点。同时、结合数据范围、数据源的映射,挑选出与关键业务数据KBE对应的数据字段,填写数据质量管理的相关表格,作为测量阶段范围的确定。
- D4定义数据治理管理维度
大数据分析应用中面临的多数据源、数据间的关联一致性、数据源的多样性等问题,这就要求在关注字段级数据质量维度的同时,还要关注跨数据源的一致性和多样性。
5. D5定义数据质量测量基准
为了评估数据质量的好坏,需要为每个测量规则定义评估指标,并为每个评估指标设定一个或一组基线和阈值,通过比较实际测量结果和基线的差距,获得数据质量状态的量化结果。
在大数据应用分析阶段,由于数据质量基线指标目标书可以预测的,其目标值可以低于一般业务流程、管理和监管的质量目标值,但在大数据应用的后期,根据预测结果来进行价值创造时,数据质量目标值就必须与流程等目标值一致。
测量阶段
大数据质量管理测量阶段的任务是根据上一阶段的结果,确定关键数据范围和管理维度的映射关系,详细规划质量分析的规则和分析方法,并执行实际的测量动作。数据质量测量阶段获得数据质量状况的原始信息,是数据质量分析阶段的输入信息。
根据测量目的不同,数据质量测量可分为一次性测量和定期测量两类:
– 一次性测量的目的上定位分析问题数据类型,获得数据质量状况的定性检查
– 定期测量上测量、分析、改进方案都已经确定在控制状态下的测量,上周期性按照已确定的数据检查规则定量分析数据质量状况,是数据质量报告体系的一部分。
- M1分析目标系统环境
分析目标系统环境完成三项任务:调查目标系统和数据环境,选择批评数据质量工具,分析样本数据。在详细设计数据质量测量方案前,需要了解数据所在系统的数据环境,根据数据环境选择质量测量工具。
典型的数据环境因素包括:操作系统平台类型、数据存储管理方式、数据访问方式和样本数据取样方式。
- M2制定数据质量计算规则
在数据质量度量维度定义阶段,确定了需要管理的数据项和数据维度映射,根据数据质量管理需求、数据业务定义,本阶段的任务是确定质量维度指标的计算规则。
数据质量测量规则与数据业务定义、实际数据错误类型都有关系需要根据样本数据质量分析、每轮测量的分析结果不断调整质量维度指标的计算规则,直至经过改进阶段确认其测量规则的有效性,并最终提交给控制阶段作为数据日常性管理规则。
质量维度指标的计算规则确定后,为分析阶段提供了详细内容。根据分析需要,分析阶段将对样本问题数据进行分析或访谈,以确定数据质量问题类型和问题原因。
- M3选择数据质量测量工具
常用的数据质量测量工具主要有数据分析软件、各类数据处理语言脚本等,目前,主流的商业化或开源的数据质量管理平台都包含数据分析工具,这些工具能直接连接各类数据库,能够结合大数据平台的部署使用,并且方便、快捷、高效率等。在面对比较复杂的质量维度度量计算规则时候,技术人员也通过编写代码来完成此项工作。
- M4进行数据质量测量
使用选择质量测量工具,获得每个测量规则的质量指标值,以及问题数据样本文件。测量结束后,将实际测量指标值填入数据质量管理相关的表格。
分析阶段
大数据质量管理分析阶段的任务上分析数据质量测量结果,形成并提交数据质量统计报告,并分析问题原因和确定相应的改进方法。
数据质量分析报告是数据质量管理组织的信息来源,数据问题原因和改进任务是质量改进阶段的输入。
- A1编制数据质量统计报告
数据质量测量结束后,根据测量明细结果计算数据质量评估指标值,基于数据质量评估值,把数据质量问题划分为不同的严重程度等级,再根据数据质量问题严重等级,选择不同类型的数据质量报告,根据数据质量统计报告不同严重等级,向不同的等级汇报。数据治理按照管理职能分为三层:决策层、管理层、执行层。
2. A2选择主要数据质量问题
数据质量问题不可能一次完全解决,问题数据会不断出现,应将有限的资源集中解决主要的问题。一般情况下,可选择对数据治理目标业务影响最大的几个质量问题,作为后续数据质量分析和质量改善方案的对象。选择方法一般使用“8/2”原则,即综合考虑数据项质量严重程度,选择评分值最大的前几个作为数据质量问题分析的对象。
3. A3分析数据质量问题原因
针对测量阶段获得的异常数据,从中挑选具有代表性的异常数据记录,通过访谈或调研方式,分析造成数据的原因,并将问题原因归类,作为识别和定义数据质量改进点的信息依据。
此阶段常用到的质量辅助工具有头脑风暴、访谈和鱼骨图,可用前两个方法收集材料,然后用鱼骨图进行归纳,根据业界的最佳实践,数据质量问题原因可归纳为四组,分别对应业务需求、流程、技术手段、人员指责。
在进行大数据质量分析原因时,对于来自企业内部的数据,要根据上述的步骤进行分析,寻找原因,但对于来自外部的大数据时,由于很难了解外部组织的业务处理流程,一般无法进行数据质量原因分析,可以跳过此环节。
改进阶段
大数据质量管理改进阶段的目标是识别数据质量方向,通过设定一系列目标任务,去改善数据质量状况,并对数据改进情况进行监控,在数据质量改进阶段,输入的是质量分析阶段所确定数据质量问题,以及造成这些问题的原因。
- I1制定数据质量改进方案
数据质量分析阶段确定了数据质量问题改进的范围、数据质量问题的原因。
数据质量改进方案的主要方向
改进大类 | 改进方向 |
---|---|
业务需求 | 完善数据需求,完善元数据内容,完善数据标准,完善应用逻辑 |
技术 | 完善应用逻辑,元数据管理系统,完善数据校验逻辑,完善数据整合应用,完善数据部署方案,数据质量跟踪,报告系统,数据分析,监控工具 |
流程 | 数据需求管理,元数据管理,完善数据采集流程,数据标准管理,完善业务流程,建立数据质量报告流程 |
人员职能 | 获得管理层对数据的认同、支持,确定数据责任人,建立数据质量管理组织,定义相应规章制度。 |
- I2执行数据质量改进方案试点
根据定义的改进任务和时间,按照项目管理制度下达任务、完成任务定义中的任务,达到设定的目标
3. I3确认数据质量改进方案有效性
改进任务试点完成后,需要验证分析阶段的问题定位是否准确,改进任务是否有效地改善了数据质量,再根据确认结果是否需要将改进任务在控制阶段进行推广,作为日常性任务持续执行。
在数据质量改进阶段,一般采取下列的数据质量改进策略;
– 针对劣质数据记录非常少的情况,采取过滤方案,将这少量劣质数据从大数据集内分离出来,在后续大数据应用中使用过滤劣质数据的新数据集,就避免劣质数据对分析应用的影响,但同时也要将过滤的劣质数据情况告知大数据使用者,让其了解,以便对大数据的分析结果应用给予以参考
– 针对数据质量的其他问题,为了整合多个不同数据源的数据,确保数据一致性和可用性,更多是对大数据集进行劣质数据的修正,使用数据剖析、标准化、数据清洗、实体匹配、充实内容等数据质量处理技术来提高数据的可用性,将修正后的新大数据集提供给后续的大数据使用者。
控制阶段
在大数据质量管理控制阶段的主要工作时将改进方案交付给业务和技术部门,作为日常业务营运的一部分,帮忙业务和技术部门定期测量数据质量状况,根据报告流程定义报送相应的风险数据管理组织。
- 制定数据质量改进推广计划
为了使其全面实现组织对项目数据质量的期望目标,并保证长期保持期望目标之内,可针对组织内部的实际情况,制定行之有效的推广计划,在人、财、物及信息系统优化等方面做好准备,重点整理改进阶段与改进方案配套的各种资源、规章制度、操作手册、质量手册和培训材料等。
一个完整的的数据质量手册有不同层次的细节,从指导方针到角色和责任,详细的描述这些准则和规范,数据质量手册既要解决管理问题、实现和操作问题等,还要解决数据产品本身的问题。
2. 开展培训
培训时数据质量改进方案得以顺利成功实施的最重要环节,培训工作要做到细而全。培训内容是否详细、清楚,是参训人员学习掌握相关知识关键,参训人员包括大数据采集员、大数据专员、大数据拥有者、大数据使用者等利益相关者,可通过课堂培训、电脑培训、组织内网公告、内部通信或简单的电子邮件等方式,将信息在组织内部传播。
3. 推广、移交、纳入日常业务工作
该任务的目标是将项目的产出、数据质量工作从项目组移交到组织的现有职能部门中,项目组成员可能来自组织的各相关业务条线和部门,需要他们将相关成果用回到工作岗位,并变为日常工作,从而实现数据质量管理和可持续发展。