数据归档
在大数据时代,存储成本显著降低的情况,企业希望在技术方案的能力范围之内尽量存储更多的数据。但大数据时代同样带来了数据的急剧增长,因此数据归档仍然是数据管理必须考虑的问题。与传统的数据备份和数据归档不同的是,大数据时代的数据归档更需要关注数据选择性恢复的功能。
在大数据的正常运行过程中,热数据到温数据、温数据到冷数据的转换可以认为是归档的过程。在这个过程中,数据根据热度的变化,从高价的设备上逐步转移到低价的设备上,其它访问性逐步降低,但仍然具有可访问性。
哪些数据需要归档?主要与监管法规的要求及企业的战略有关。传统的数据归档主要依据数据的数龄,在大数据时代,可依据数据的热度或者依据数据的价值。企业根据监管法规的要求及企业的策略,明确热数据、温数据和冷数据之间的界限,确定企业的数据归档策略,并依据该策略对数据进行归档处理。
不同的数据有不同的归档场景,制定某种数据的归档策略时,应该对数据使用的需求进行分析,根据分析的结果,结合法规、风险、策略、访问成本,以及数据价值等方面,梳理数据的规范场景。数据归档实际上也是一个ETL的过程,为了保证归档后数据的可访问性,在归档时需要考虑数据的存储、检索与恢复。
归档过程中,需要考虑数据压缩与格式转换的问题,在数据热度很低的情况下,从成本的角度,应该考虑对于数据进行压缩。压缩可以通过手工,也可以通过一些数据库层级或者硬件层级的工具进行。数据压缩会导致访问困难。因此企业在明确哪些数据可以压缩的时候,必须要有明确的策略。随着技术的发展,压缩的技术应尽量选择可选择性恢复的数据压缩方案。
非结构化数据的归档,主要应该关注向数据注入有序的和结构化的信息,以方便数据的检索和选择性恢复。
数据销毁
随着存储成本的进一步降低,越来越多的企业采取了“保存全部数据”的策略。因为从业务和管理的角度。以及数据价值的角度上讲,谁也无法预料未来会使用到什么数据。但随着数据量的急剧增长,从价值成本分析的角度,存储超出业务需求的数据未必是一个好的选择。有时候一些历史数据也会导致企业的法律风险,因此数据的销毁还是很多企业应该考虑的选项。
对于数据的销毁,企业应该有严格的管理制度,建立数据销毁的审批流程,并制作严格的数据销毁检查表。只有通过检查表检查,并通过流程审批的数据,才可以被销毁。