刚开始接触Hadoop ,指南中说Hadoop处理非结构化数据,学习数据库的时候,老师总提结构化数据,就是一张二维表,那非结构化数据是什么呢?难道是文本那样的文件?

1. 结构化数据(structured  data):

传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示。

数据模型:

二维表

 

2. 半结构化数据(semi-structured data):

类似XML、HTML之类,自描述,数据结构和内容混杂在一起。

数据模型:

树、图

 

3. 非结构化数据(unstructured data):

各种文档、图片、视频/音频等。

数据模型:

 

PS :MapReduce对于非结构化或半结构化数据非常有效,因为在处理数据时才对数据进行解释,换句话说,MapReduce 输入的键和值并不是数据固有的属性,而是由分析数据的人员来选择的。