学习记录

信息可以划分为两大类:

一类信息能够用数据或统一的结构加以表示,称为结构化数据(即行数据,存储在数据库里,可用二维表结构来逻辑表达实现的数据),如数字、符号;

另一类信息无法用数字或统一的结构表示,如不同格式的办公文档、文本、网页、XML、HTML、各类报表图像音频/视频信息等,称为非结构化数据

结构化数据属于非结构化数据,是非结构化数据的特例。

例子:

把一堆水果的种类、颜色、名称等属性按照一定的格式记录下来,这部分数据就是结构化数据,可以通过固定的模板读取某一条记录的某一个属性值。

现在给水果们拍照,用语言描述水果的口感,甚至给每个水果做一个网页,这些数据都是非结构化数据,这些数据不直接对应某个属性,需要相对复杂的方式来分析才能知道其含义。