企业数据包括企业中的所有数据,企业的全体数据分为两大类:结构化数据和非结构化数据。结构化数据就是指存在数据库表中的数据,一般由DBMS进行管理;非结构化数据则包括文本、音视频等不方便访问的数据。下表对结构化数据和非结构化数据进行了对比:
结构化数据与非结构化数据
结构化数据 | 非结构化数据 |
定义良好 | 没有被计算机识别的结构 |
可预测的 | 不可预见的 |
方便访问 | 不方便访问 |
快速定位 | 解析查找 |
非结构化数据又可以进一步的划分成两种基本的数据类型:重复型和非重复型。重复型是指以同样的结构甚至同样的形态出现多次的数据;非重复型数据是指记录截然不同的数据,如电子邮件、通话录音和市场调研等。从业务相关性的角度来看,结构化数据一般是业务交互的产物,交易记录最终最终会形成一条条结构化的记录。而非结构化数据按照之前所说的分类,重复型非结构化数据由于内容和结构大部分重复,因此业务价值不高;非重复型非结构化数据有着很大的业务价值。业务相关性如下图:
由于非重复型非结构化数据中有一部分类似垃圾邮件和停用词的数据,因此也存在业务不相关性。企业中的非结构化数据通常被称为大数据,而大数据由于处理方式的不同,存在着一条明显的分界线。重复型非结构化数据是通过Hadoop平台来管理维护的;而非重复型非结构化数据则是通过文本消岐来实现的。
数据管理和数据架构需要从基础设施来理解数据,以重复型数据举例,重复型数据也分为两种类型——结构化重复型数据和非结构化重复型数据。结构化重复型数据包括各种交易数据,而非结构化重复型数据包括计量数据、模拟数据、生产数据和点击流数据等。从底层结构来看,重复型结构化数据被拆分成单条记录,这些记录位于数据块(页)中,也就是说,每个数据块有若干条记录,每条记录都包含键、属性、索引等要素。这里介绍一下基本的概念:
- 键:一个或多个能够唯一确定一条记录的属性
- 属性:与本条记录活动相关的列
- 索引:在记录属性上建立的关联
而大数据(非结构化数据)中的重复型数据的记录一般是混合在一起的字符串,而这个字符串又存在底层(HDFS)的数据块里。如果系统要查找一条记录,需要将字符串进行解析成记录并判断是否是所需记录(字符串比对),由于解析涉及到大量的计算,因此大部分企业采用分布式系统进行处理,将计算任务在各分布式系统独立执行后再合并返回。两种系统所优化的方向也截然不同。结构化数据所优化的方向是能快速定位并返回数据,而大数据系统所优化的方向是近乎无限的存储数据。两种系统特性和优化方向也确定了业务中的选择,如果企业想要尽量减少I/O并快速返回结果,那无疑是使用DBMS管理结构化数据;如果企业要减少基础设施的创建和维护输入输出海量的数据则使用大数据系统更为高明。
非结构化数据的两种类型之间的主要区别在于:重复型非结构化数据关注的焦点在于Hadoop环境中的数据管理,而非重复型非结构化数据关注的焦点在于数据的文本消岐,这两者在数据认知、数据使用和数据管理方面都存在巨大差别。重复型非结构化数据是以Hadoop为核心的,Hadoop的基本特点包括如下几方面:
- 能够管理海量数据
- 可以在相对较为便宜的存储器上管理数据
- 采用分布式统计方法管理数据
- 以非结构化方式存储数据
DBMS和Hadoop体系的不同点在于:
- 在标准DBMS中,服务也存在于DBMS自身中;而在Hadoop中,许多服务都在外部执行
- 在整个Hadoop环境中,服务海量数据的需求始终存在,开发者必须做好管理和处理大量数据
非重复型非结构化数据强调文本消岐(文本ETL),文本消岐过程将其转换成一种可以通过标准分析软件分析的格式,文本消岐最重要的是语境(联系上下文),通过阅读和分析文本而推导出文本上下文的过程将文本重新格式化为标准数据库格式,进而使用BI系统进行处理。重复型非结构化数据根据企业的性质和特点,并不是每个企业中都存在的。比如气象服务、制造业和公用事业拥有大量的重复型非结构化数据,而小型零售业则几乎不存在重复型非结构化数据。数据的最终用途是为了支持分析,通过分析结果为企业做决策,数据分析分为正式分析和非正式分析。大多数情况下,企业数据有多种来源和多种数据类型,因此对于数据的分析首先要考虑的是哪种分析类型。正式分析要求得到企业层面的结果甚至法律层面的结果,数据的准确性及数据谱系(血缘关系)都非常重要;而非正式分析通常需要快速完成并且可以使用任何可获取到的数值。企业在收集到数据后最重要的步骤是逻辑消解——将多个不同来源的数据集中到一起,并且无缝读取和处理,具体消解如下:
- 消解键结构:企业一部分所采用的键与企业另一部分所采用的类似键存在差别
- 消解定义:企业中以某种发使定义的数据在企业另一部分中以另一种方式定义
- 消解计算:企业中以某种方式进行的计算在企业另一部分中是采用不同的公式来计算的
- 消解数据结构:企业中以某种结构组织的数据在企业的另一部分中是采用不同的结构来组织的
一旦完成数据集成,数据就被重新格式化为规范化形式,规范化的形式数据起到两个作用:
- 规范化是一种组织数据的逻辑方式
- 在规范化数据的基础上,分析处理工具能够发挥出更好的性能
规范化得结果就是可以将数据存放于平面文件记录中,一旦数据可存放于规范化得平面文件记录中,就方便计算和比较等处理了。一般数据分析的第一步进行数据归类,将数据划分成合适的粒度,然后进行分类再进行多种分析;另一种分析形式是对数据进行归类和计数;第三种分析方式就是按时间的变化比较信息;最后一种是KPI分析。
企业中的数据存在可预见的数据生命周期,生命周期存在两个阶段,如下图:
数据的生命周期揭示了原始数据进入企业信息系统的情况。当原始数据进入系统后,通过一个捕获/编辑过程来对原始详细数据进行处理,在数据的编辑过程可以对数据进行调整甚至拒绝采用。在捕获/编辑后则对原始数据进行筛选/计算/整合过程的组织流程。经过组织流程后,数据进入集成过程,对数据重新结构化,之后可以与其它类型的数据结合使用。从数据的新旧程度来看,越新的数据被访问的可能性越大,当数据在生命周期结束后则被压缩归档(传输到远程备份服务器)或者丢弃(永久性删除)。详细数据和汇总数据在有用性上都是随着时间而递减的,但是两者存在区别:详细数据的有用性递减曲线要比汇总数据的更加陡峭,此外随着时间推移,汇总数据的有用性曲线趋于平缓但不会为0;而详细数据的曲线则会接近0。
数据的发展经历了纸带卡片时代——>磁带时代——>磁盘存储器——>数据库管理系统——>多核处理器——>OLTP——>数据仓库——>并行数据管理——>DataVault——>大数据,在各个阶段,数据的存储方式和处理方式都有革命性的进步。直到目前我们处于数据的大数据时代,人们发现大数据的重复型和非重复型分类,因此采用不同的架构和方式对大数据进行处理。