大数据质量的基本概念
数据是表示事物各种属性的基本元素,通常情况下,只要符合数据应用的需要,就可以将它视为合格数据,即数据质量合格。结合质量的定义分析可知,数据质量就是“一组固有特征满足表示事物属性的程度”或“每个元素对于某种应用场景的适合度”。数据质量不但依赖于数据本身的特征,还依赖于使用数据时所处的业务环境,包含数据业务流程和业务用户。
从本质上说,大数据与传统数据质量定义方面差异不大,仅是对事物属性特征表示方式的差异,从这个意义上讲,传统的数据质量概念仍然适合大数据质量的概念。
大数据质量的维度
高质量数据必须要合乎需求的数据,可以根据数据是否合乎需求来定义数据质量的高低,数据质量可以用多种度量维度来衡量,每种度量维度衡量了数据某个或某类特征满足质量目标的程度。
结合当前大数据质量度量维度,将大数据的度量维度分为四大类:
- 大数据固有质量的度量维度
维度名称 | 维度描述 |
---|---|
可信性 | 数据真实和可信的程度 |
客观性 | 数据无偏差、无偏见、公正中立的程度 |
可靠性 | 数据从其来源和内容角度对其信赖的程度 |
价值密度 | 大数据的价值可用性 |
多样性 | 大数据类型的多样性 |
- 大数据环境质量的度量维度
维度名称 | 维度描述 |
---|---|
适量性 | 数据在数量上对于当前应用满足的程度 |
完整性 | 数据内容是否缺失、以及当前广度和深度应用的满足程度 |
相关性 | 数据对于当前应用来说适用和有帮助的程度 |
增值性 | 数据对当前应用是否有益,以及通过数据使用提升优势的程度 |
及时性 | 数据满足当前应用对数据时效性的要求程度 |
易操作性 | 数据在多种应用中便于使用和操作处理的程度 |
广泛性 | 大数据来源的广泛程度 |
- 大数据表达质量的度量维度
维度名称| 维度描述
—|—
可解释性 | 数据在表示它的语言、符号和单位,以及定义清晰的程度
简明性 | 数据严谨、简明、扼要表达事物特征的程度
一致性 | 数据在信息系统中按照相同一致方式存储的程度
易懂性 | 使用者能够准确地理解数据所表示的含义,避免产生歧义的程度
– 大数据可访问性质量的度量维度
维度名称 | 维度描述 |
---|---|
可访问性 | 数据可用且使用者能方便、快捷地获取数据的程度 |
安全性 | 对数据的访问存取有严格的限制,达到相应安全等级的程度 |