数据治理-数据生命周期管理-大数据采集

大数据采集

为满足企业或组织不同层次的管理与应用的需求,数据采集分为三个层次。

  • 第一层次,业务电子化。为满足业务电子化的需求,实现业务流程的信息化记录,在本阶段中,主要实现对于手工单证的电子化存储,并实现流程的电子化,确保业务的过程被真实记录。本层次数据采集的关注重点是数据的真实性,即数据质量
  • 第二层次,管理数据化,为满足企业管理的信息需求,实现对企业和相关方信息的全面采集和整合。在业务电子化的过程中,企业逐步学会了通过数据统计分析来对企业的经营和业务进行管理,因此,对数据的需求不仅仅满足于记录和流程的电子化,而是要求对企业内部信息、企业客户信息、企业供应链上下游信息实现全面的采集,并通过数据集市、数据仓库等平台的建立,实现数据的整合,建立基于数据的企业管理视图,本层次数据采集的关注重点是数据的全面性。
  • 第三层次,数据化企业。在大数据时代,数据化的企业从数据中发现和创造价值,数据已经成为企业的生产力。在这一阶段,企业的数据采集向广度和深度两个方向发展。在广度方面,企业不仅仅需要采集内部数据,也需要采集外部的数据,数据的范围不仅仅包含传统的结构化数据,也包含文本、图片、视频、声音、物联网等非结构化数据。在深度方面,企业不仅对每个流程的执行结果进行采集,也对流程中每个节点执行的过程信息进行采集。本层次数据采集的关注重点是数据的价值。

大数据时代的数据采集,除了采集传统的结构化数据外,还需关注以下类型的数据采集:
– 业务和管理系统的日志采集
– 文本数据和文档数据的采集
– 语言数据的采集
– 图片数据的采集
– 视频数据的采集
– 机器产生数据的采集,包括机械、电子设备的采集,如车联网数据
– 生活数据采集,如可穿戴设备采集、家用电器数据采集
– 用户上网行为采集
– 人和物的地理信息和流动信息采集

大数据采集的策略

        大数据采集的扩展,也意味着企业IT成本和投入的增加。因此,需要结合企业本身的战略和业务目标,制定大数据的采集策略。企业大数据的采集策略一般有两个方向

  • 第一个方向,尽量多地采集数据,并整合到统一平台中,该策略认为,任何只要与企业相关的数据,尽量采集并集中到大数据平台中,该策略的实施一般需要两个条件:首先,需要较大的成本投入,内部的数据的采集,外部数据的获取都需要较大的成本投入,同时将数据存储和整合到数据平台上,也需要较大的IT基础设施投入;其次,需要有较强的数据专家团队,能够快速地甄别数据并发现数据的价值,如果无法从数据中发现价值,较大的投入无法快速得到回报,就无法持续
  • 第二个方向,以业务需求为导向的数据采集策略。当业务或管理提出数据需求时,再进行数据采集并整合到数据平台。该策略能够有效避免第一种策略投入过大的问题,但是完全以需求为导向的数据采集,往往无法从数据中发现“惊喜”,在目标既定的情况下,数据的采集、分析都容易出现思维限制

        对于完全数字化的企业,如互联网企业,建议采用第一种大数据采集策略。对于目标尚处于数字化过程中、成本较紧、数据能力成熟度较低的企业,建议用第二种大数据采集策略

大数据采集的规范

        为了满足企业战略的要求,哪些数据需要被采集,将会预先定义,如果能够制定相应的大数据采集规范,并在个各数据采集点实施这些规范,将会有效提升数据采集的质量和全面性。
        数据采集规范应包含以下内容:
1. 规范制定的目的:明确本规范的适用方面和业务目的
2. 规范适用的范围:明确哪些数据采集点、哪些系统需要实现符合本规范的数据采集功能
3. 数据采集的内容:明确哪些数据应被采集,采集的数据应该符合什么格式
4. 数据质量的标准:明确采集的数据应该遵循的标准
5. 数据采集的方法:明确对于不同的数据,应该采用何种方式进行采集,采集后应该通过何种方式传送到数据平台

大数据采集的安全和隐私

        数据采集的安全和隐私涉及三个方面的问题
1. 数据采集过程中的客户与用户隐私

        大数据时代的数据采集,更多地涉及客户与用户的隐私。传统的数据采集,主要是在业务过程中采集客户与用户的自然属性和社会属性信息,以及与企业发生关系的业务信息,大数据时代中,客户的地点信息、行为轨迹(线上、线下)、生理特性、形象声音等信息都会得到采集。从企业应用的角度,为避免法律风险,在大数据采集的过程中,如果涉及客户和用户隐私的采集,应该注意以下几个方面
– 告知客户和用户的哪些信息被采集,并要求客户进行确认
– 客户和用户信息的采集应用于为客户提供更好的产品和服务
– 向客户和用户明确所采集的信息不会提供给第三方
– 向客户和用户明确他们在企业平台上发布的公开信息,如言论、照片、视频等,不在隐私保护的范围以内,如果发现的内容涉及版权问题,需要自行维权

  1. 数据采集过程中的权限

        在IT治理达到一定水平的企业,每个IT系统都有业务归属部门,IT系统的数据虽然属于整个企业,可以共享,但业务归属部门对这些数据具有管辖权。对较为关键的系统,企业往往会制定相应的管理办法,从该系统中获取数据,需要经过相应流程的审批,其中包含归属业务部门审批。在建设企业级数据平台的过程中,上述治理结构会对数据平台的数据采集带来一些负面影响。每个数据源系统的数据接入,以及接入数据的变更,都需要通过对应业务部门的审批,这将大大提升系统建设的沟通成本。
3. 数据采集过程中的安全管理

        企业应为数据采集制定相应的安全标准。数据采集类系统需要根据采集数据的安全级别,实现相应级别的安全保护。在数据采集的过程中,必须要确保被采集的数据不会被窃取和篡改。在数据从源系统采集到数据平台的过程中,也需要确保数据不被窃取和篡改。

数据采集的时效

        数据采集的时效越快,其产生的数据价值就越大。从管理者的角度,如果通过数据能实时地了解到企业经营情况,就能够及时地做出决策;从业务的角度,如果能够实时地了解客户的动态,就能够有效地为客户提供合适的产品和服务,提高客户满意度;从风险管理的角度看,如果能够通过数据及时发现风险,企业就能够有效避免风险和损失。数据实时化采集是有比较高的成本,因此哪些数据需要实时化采集,哪些数据可以批量采集,需要根据业务目标来划分优先级

非结构化数据的采集

        在传统的数据采集中,考虑得较多的是结构化数据的采集,而现在对于非结构化数据(文档、邮件、图片、音频和视频等信息)的采集已成为当务之急。采集非结构化一般需要获取非结构化之中的有效信息

        传统的处理非结构数据的方式,是为非结构化数据打标签,例如,图像信息在存储过程中,与相应的客户、业务、时间、场景描述等环境信息结合起来,随着技术的发展,可以直接从非结构化数据中提取出相应的信息,比如,人脸识别技术可以直接将人脸和人对应起来;音频转换技术,不但可以将语言转化为文本,还可以识别语言中的情绪信息;文本识别技术,可以获取文本中的关键字,给文本加上索引标签。

        不管是传统的人工加标签,还是通过新技术自动加标签,对非结构化数据的处理,最重要的就是能够将非结构化数据与客户、业务、雇员、产品等信息进行关联,从而通过索引、分析等技术 ,发挥非结构化数据的价值。

大数据的清理

        大数据清理的目的主要有2个:一是无关数据的清理,而是低质量的数据清理。通俗地讲,就是清理垃圾数据。大数据环境下的数据清理,与传统的数据清理有所区别,对传统数据而言,数据质量是一个很重要的特性,但对于大数据,数据可用性变得更为重要,传统意义的垃圾数据,也可以“变废为宝”。
        对于不同的可用性暑假见,数据应建立不同的质量标准,应用于财务统计的数据和应用于分析的数据,在质量标准上应有所不同。有些用途必须严格禁止垃圾数据进入,有些用途的数据需要讲求数据的全面性,但对质量的要求不是那么高;有些用途,如审计与风险,甚至需要专门关注垃圾数据,从一些不符合逻辑的数据中发现问题。
        因此,在大数据应用中不建议直接清理垃圾数据,而是将数据质量进行分级,不同质量等级的数据满足不同层次的应用需求。