作者:石秀峰,公众号:learning-bigdata(谈数据)
一、什么是数据治理?
维基百科:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。
笔者认为:所有为提高数据质量而展开的业务、技术和管理活动都属于数据治理范畴。数据治理的目的就是通过有效的数据资源控制手段,进行数据的控制,以提升数据质量进而提升数据变现的能力。
二、为什么需要数据治理?
在我国,各行业的信息化发展和建设水平并不均衡,甚至有的行业是刚刚起步。但是,不论是金融行业、通讯行业、地产行业、传统制造业以及农业,其信息化的发展基本都遵循了“诺兰模型”。笔者认为企业信息化大致经历了初期的烟囱式系统建设、中期的集成式系统建设和后期的数据管理式系统建设三个大的阶段,可以说是一个先建设后治理的过程。
1、数据质量层次不齐
当今时代,“数据资产化”的概念已经被大多数人理解和接受。不论是企业、政府还是其他组织机构,对于的数据资产的管理越来越重视。然而,数据并不等于资产,也就是说不是所有数据都是数据资产,数据中也有垃圾数据。我们需要治理的是能够为企业创造价值的数据资产,而不是全部数据。
2、数据交换和共享困难
企业信息化建设初期缺乏整体的信息化规划,系统建设大多都是以业务部门驱动的单体架构系统或套装软件,数据分散在这些架构不统一、开发语言不一致、数据库多样化的系统中,甚至还有大量的数据存放在员工的个人电脑中,导致在企业内部形成了一个个的“信息孤岛”。这些“孤岛”之间缺乏有效的连接通道,数据不能互联互通,不能按照用户的指令进行有意义的交流,数据的价值不能充分发挥。只有联通数据,消除这些“信息孤岛”,才能实现数据驱动业务、数据驱动管理,才能真正释放数据价值。
3、缺乏有效的管理机制
目前,许多企业都认识到了数据的重要性,并尝试通过生产系统的业务流来控制数据流,但由于缺乏有效的管理机制和某些人为的因素,在数据流转过程中,存在数据维护错误、数据重复、数据不一致、数据不完整的情况,导致了产生了大量的垃圾数据。数据产权不明确,管理职责混乱,管理和使用流程不清晰,是造成数据质量问题的重要因素。
4、存在数据安全隐患
2018年3月份的Facebook 5000万用户信息被泄露和滥用的事件,受该事件影响,Facebook股价当日大跌7%,市值缩水360多亿美元,而盗用数据的剑桥分析这家公司也于同年5月停止运营,并申请破产。这种数据安全事件,在我国发生频率更多,我还清楚的记得:2011年,黑客在网上公开了CSDN的用户数据库,高达600多万个明文的注册邮箱账号和密码遭到曝光和外泄;2016年,顺丰员工应盗取大量客户信息被送上法庭;2017年,京东员工盗取用户个人信息50亿条,并通过各种方式在网络黑市贩卖。近年来,随着大数据的发展,诸如此类的数据安全事件多不胜数。数据资产管理上,正在由传统分散式的人工管理向计算机集中化管理方向发展,数据的安全问题愈来愈受到人们的关注。
三、DMBOK的数据治理框架
DMBOK是由数据管理协会(DAMA)编撰的关于数据管理的专业书籍,一本DAMA 数据管理辞典。对于企业数据治理体系的建设有一定的指导性。注:DAMA 是数据管理协会的简称,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,致力于数据管理的研究和实践。
DMBOK将数据管理分为以下10个职能域:
- 数据控制:在数据管理和使用层面之上进行规划、监督和控制。
- 数据架构管理:定义数据资产管理蓝图。
- 数据开发:数据的分析、设计、实施、测试、部署、维护等工作。
- 数据操作管理:提供从数据获取到清除的技术支持。
- 数据安全管理:确保隐私、保密性和适当的访问权限等。
- 数据质量管理:定义、监测和提高数据质量。
- 参考数据和主数据管理:管理数据的黄金版本和副本。
- 数据仓库和商务智能管理:实现报告和分析。
- 文件和内容管理:管理数据库以外的数据
- 元数据管理:元数据的整合、控制以及提供元数据。
四、数据治理框架的理解和解读
DMBOK对企业级数据治理给出了框架性建议,但是任何指导性的框架文件都不是万能的。不同的行业、不同性质的企业、不同的信息化程度、不同的企业文化,其数据治理方案必须因地制宜,量身定制。我们常说:没有最好的解决方案只有更合适的解决方案。企业在实施数据治理的时候,应做好充分的分析和评估,切勿盲目跟风,避免出现数据治理收效甚微,还浪费了投资的窘境。
笔者认为企业数据治理应考虑以下要素:
1、数据治理的对象
大家都在谈数据治理,但是到底哪些数据需要被治理?我们说数据治理不是治理全部数据,而是针对企业数据资产的治理。那么,问题来了,到底什么是数据资产?又如何识别数据资产?
维基百科定义:数据资产属于普通个人和企业的数字财产,数据资产是无形资产的延伸,不具有实物形态。其本质是数据作为一种经济资源参与企业的经济活动,减少和消除了企业经济活动中的风险,为企业的管理控制和科学决策提供合理依据,并预期给企业带来经济利益。
笔者认为,数据资产虽不具备实物形态,但是它必定是实物在网络世界映射的一种虚拟形态。对于企业而言,人、设备、产品、物料、软件系统、数据库、以及任何涉及到使用文件作为载体的各类数据,都属于企业的数据资产。
我们虽然定义了数据资产,但是不同行业的数据治理侧重点也不同。数据治理要理解行业需求、企业诉求,在不同行业、不同企业应具有不同的差异化方案。企业在实施数据治理的时候,首先要进行数据资产的识别和定义,明确数据治理的对象和范围,做好数据治理的顶层设计!
2、数据治理的时机
这些年由于工作原因走访了一些企业,其经济情况不同、行业特点不同、信息化程度不同、数据治理情况也不尽相同。
第一类企业:经济实力雄厚,信息化起步较早,信息化程度比较高,如:XX银行、国家电网,他们已形成了系统性的数据治理体系。
第二类企业:有一定的经济实力、信息化程度相对较好,但是早期的信息化盲目建议,买了一堆的套装软件,建了一堆的系统,虽然系统或多或少都有使用,但效果不佳,谈起数据治理,客户自己都觉得头痛:企业到底都有哪些数据?这些数据都是分布在哪里?数据治理该如何入手?
第三类企业:经济实力相对薄弱,也有信息化刚刚起步的企业,这些企业多数的业务还是靠纸质或线下模式,部分企业使用了财务软件或ERP系统,数据存放个人电脑或生产系统中,基本没有数据治理。我国的一些中小民型营制造企业多数处于这个水平。
企业数据治理的时机该如何选择?是先有了数据再进行治理,还是先建设好数据治理体系再进行应用系统建设?针对上述不同类型的企业,其数据治理选择的时机和体系建设的设计绝对不能一概而论。
对于第一类企业,已经有了相对完善的数据治理体系,更需要的是加强数据安全、数据应用、数据创新,稳固提升数据管理、数据应用和数据变现的能力;
对于第二类企业单体架构的系统多,信息孤岛严重,一定存在数据多源、重复、不一致等问题,其数据治理已是迫在眉睫;
对于第三类企业,在数字化的浪潮下,信息化虽然薄弱,但如果打好数据基础,未免不是企业改革创新,实现“弯道超车”的最佳时机。
3、谁来实施、谁来主导
企业常常有这样一个误区,很多人认为数据治理就是信息化部门的事情和业务部门无关。前边我们说过数据治理是对企业数据资产的治理,既然是资产,就一定要确权。企业数据资产的生产、使用应该有明确的责任部门,显然数据资产的生产及归属部门应该是业务部门,信息化部门最多也就是一个数据资产的托管部门而已。笔者也多次强调企业的数据问题,80%是业务和管理的问题,20%是技术问题。
所以,企业数据治理是应有高层领导牵头,业务部门负责,信息部门执行,企业全员的参与。企业全员应培养起数据思维和数据意识,当然这是一个长期的过程,也是一件很不容易的事情,需要一点一滴的积累沉淀,并不断融入企业文化中。
4、数据治理的内容
数据治理是长期、复杂的工程,涉及到组织体系、标准体系、流程体系、技术体系和评价体系五方面的工作领域,包含了数据标准、数据质量、主数据、元数据、数据安全等多个方面内容。由于企业性质、业务特点、管理模式的不同,有必要建立符合企业现状和企业需求的数据治理框架,指导企业数据治理工作的开展。
以下是笔者个人理解的数据治理框架内容,不足之处希望业内专家指正,期待与您的交流:
组织体系:数据治理项目的实施绝非是一个部门的事情,不能在企业的单一部门得到解决。需要从整个组织考虑,建立专业的数据治理组织体系,进行数据资产的确权,明确相应的治理制度和标准,培养整个组织的数据治理意识。这需要 IT 与业务部门进行协作,而且必须始终如一地进行协作,以改善数据的可靠性和质量,从而为关键业务和管理决策提供支持,并确保遵守法规。
标准体系:数据治理的标准体系是多个层面的,包括:国际标准、国家标准、行业标准、企业标准等。企业数据标准体系内容应涵盖:元数据标准、主数据标准、参照数据标准、数据指标标准等。数据治理的成效,很大程度上取决与数据标准的合理性和统一实施的程度。企业数据标准体系的建设应既满足当前的实际需求,又能着眼未来与国家及国际的标准接轨。
流程体系:数据治理流程体系,为数据治理的开展提供有据可依的管理办法、规定数据治理的业务流程、数据治理的认责体系、人员角色和岗位职责、数据治理的支持环境和颁布数据治理的规章制度、流程等。建立数据的生产、流转、使用、归档、消除的整个生命周期管理的过程。企业应围绕数据治理的对象:数据质量、数据标准、主数据、元数据、数据安全等内容建立相应的制度和流程。
评价体系:建立数据评价与考核体系是企业实施和贯彻数据治理相关标准、制度和流程的根本。建立明确的考核制度,实际操作中可根据不同企业的具体情况和企业未来发展要求建立数据的认责体系,设置考核指标和考核办法,并与个人绩效挂钩。考核指标包括两个方面内容,一方面是对数据的生产、管理和应用等过程的评估和考核指标,另一方面是数据质量的评测指标。
技术体系:数据治理包括数据治理的工具和技术,总体应包括元数据管理、主数据管理、数据标准管理、数据质量管理和数据安全管理。
元数据管理:元数据管理是对企业涉及的业务元数据、技术元数据、管理元数据进行盘点、集成和管理,按照科学、有效的机制对元数据进行管理,并面向开发人员、最终用户提供元数据服务,以满足用户的业务需求,对企业业务系统和数据分析平台的开发、维护过程提供支持。借助变更报告、影响分析等应用,控制数据质量、减少业务术语歧义和建立业务和技术之间的良好沟通渠道,进一步提高各种数据的可信性、可维护性、适应性和可集成性。
数据标准管理:数据标准适用于业务数据描述、信息管理及应用系统开发,可以作为经营管理中所涉及数据的规范化定义和统一解释,也可作为信息管理的基础,同时也是作为应用系统开发时进行数据定义的依据。涉及国家标准、行业标准、企业标准和地方标准,在定义元数据实体或元素时进行关联。数据标准需要不断的补充完善、更新优化和积累,以便更好的支撑业务的开发和系统的集成。
主数据管理:主数据管理是通过运用相关的流程、技术和解决方案,对企业核心数据的有效管理过程。主数据管理涉及主数据的所有参与方,如用户、应用程序、业务流程等,创建并维护企业核心数据一致性、完整性、关联性和正确性。主数据是企业内外被广泛应用和共享的数据,被誉为是企业数据资产中的“黄金数据”,主数据管理是撬动企业数字化转型的支点,是企业数据治理最核心的部分。
数据质量管理:建立数据质量管理体系,明确数据质量管理目标、控制对象和指标、定义数据质量检验规则、执行数据质量检核,生产数据质量报告。通过数据质量问题处理流程及相关功能实现数据质量问题从发现到处理的闭环管理,从而促进数据质量的不断提升。
数据安全管理:目前多数人都知道数据安全问题十分重要,但在现实中,数据安全却常常被忽视,只有出现了数据安全问题甚至事故时,人们才认识到要为数据安全做点什么了。数据安全应贯穿数据治理全过程,应保证管理和技术两条腿走路。从管理上,建立数据安全管理制度、设定数据安全标准、培养起全员的数据安全意识。从技术上,数据安全包括:数据的存储安全、传输安全和接口安全等。当然,安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限。企业需要在安全、效率之间找到平衡点。
五、数据治理框架总结
再次强调,企业实施数据治理需因地制宜,不论建立什么样的数据治理体系、采用什么样的数据治理技术,其目的都是实现数据治理目标,即:通过有效的数据资源控制手段,对进行数据的管理和控制,以提升数据质量进而提升数据变现的能力。数据治理体系和框架,只是企业数据治理的一个参考,不能照搬和套用,更不能为了治理而治理。