第六章:物联网数据处理

  • 6.1 物联网与大数据
  • 6.2 物联网数据存储
  • 6.2.1 关系型数据库
  • 6.2.2 非关系型数据库
  • 6.3 物联网云计算和虚拟化
  • 6.4 物联网数据分析与挖掘
  • 6.4.1 数据的预处理和知识发现
  • 6.4.2 数据挖掘
  • 6.4.3 并行处理MapReduce
  • 6.4.4 并行处理Spark
  • 6.5 物联网的数据检索
  • 6.5.1 文本检索
  • 6.5.2 流媒体检索
  • 6.6 物联网数据的可视化技术



6.1 物联网与大数据

  • 物联网产生大量的数据。所以物联网必然是大数据的物联网。对物联网的数据处理必然是大数据处理。
  • 大数据:无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
  • 物联网的数据处理需要新处理模式才能具有更强的决策力、洞察发现力和流程化能力。
  • 物联网的数据通常是海量、高增长和多样化的一种信息资产。

1、大数据的数据特点(5V)

常用物联网数据集 物联网数据处理_数据

  • (1)海量(Volume)
  • 物联网数据来源海量异构的感知设备,描述着物理世界对象的各种状态及变化;
  • 海量感知设备;
  • 海量节点;
  • 传感器节点多数处于全时工作状态;
  • 物联网数据由TB跃升到PB;
  • 存在问题:这些数据都是有用的吗?正确的?
  • (2)多样(Variety)
  • 物联网应用范围广泛,在不同领域、不同行业面对不同类型、不同格式的数据,如网络日志、视频、图像、地理位置信息;
  • 物联网数据有明显的颗粒性,数据通常是多维的甚至是高维的。集成多个感知设备,同时感知某一对象的多个属性;
  • 物联网数据具有多源异构的特征。数据多来源于不同的传感器,由于感知对象和感知目的的不同,这些设备产生的数据多具有不同的结构和语义。
  • (3)高速(Velocity)
  • 数据增长速度快,处理速度也快,时效性要求高;
  • 物联网与真实世界直接关联,很多情况下需要实时访问控制,同时需要更高的数据传输速率来支持这种实时性;
  • 决策,检索,通信都需要高速(如检索新闻,如智能交通)。
  • (4)真实(Veracity)
  • 指数据的质量和保真性。大数据环境下的数据最好具有较高的信噪比。
  • 存在问题:数据是真实的吗?
  • 虚假数据(错误数据)。
  • (5)价值(Value)
  • 即低价值密度。随着数据量的增长,数据中有意义的信息却没有成相应比例增长。而价值同时与数据的真实性和数据处理时间相关;
  • 例如:沙海淘金;视频监控。

    2、从存储角度划分
  • (1)结构化数据
  • 指遵循一个标准的模式和结构(conform to a data model or schema),以二维表格的形式存储在关系型数据库里的行数据。结构化数据是先有结构、后产生数据
  • 结构化数据简单的说,就是关系型数据库里的数据。
  • 由于关系型数据库发展较为成熟,因此结构化数据的存储、分析方法也发展的较为全面,有大量的工具支持结构化数据分析,分析方法大部门以统计分析和数据挖掘为主。
  • 其中,关系型数据库(Relational Database)是创建在关系模型基础上的数据库,关系模型即二维表格模型,因此一个关系型数据库包括一些二维表且这些表之间的具有一定关联。关系型数据库可运用SQL语言通过固有键值提取相应信息。
  • (2)非结构化数据
  • 是指不遵循统一的数据结构或模型的数据(如文本、图像、视频、音频等),不方便用二维逻辑表来表现。这部分数据在企业数据中占比大,且增长速率更快。
  • 非结构化数据更难被计算机理解,不能直接被处理或用SQL语句进行查询。非结构化数据常以二进制大型对象(BLOB,将二进制数据存储为一个单一个体的集合)形式,整体存储在关系型数据库中中;或存储在非关系型数据库中(NoSQL数据库)。其处理分析过程也更为复杂。
  • (3)半结构化数据
  • 半结构化数据,是指有一定的结构性,但本质上不具有关系性,介于完全结构化数据和完全非结构化数据之间的数据。
  • 它可以说是结构化数据的一种,但是结构变化很大。因此,为了了解数据的细节,不能将数据简单按照非结构化数据或结构化数据进行处理,需要特殊的存储(化解为结构化数据/用XML格式来组织)和处理技术。
  • 半结构化数据包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,它也被称为自描述的结构(以树或者图的数据结构存储的数据)。先有数据,再有结构。两种常见的半结构化数据:XML文件和JSON文件。常见来源包括电子转换数据(EDI)文件、扩展表、RSS源、传感器数据。

3、从编程角度划分

  • (1)编程语言
  • 原始类型、多元组、记录单元、代数数据类型、抽象数据类型等。
  • 描述了实际应用中的对象,对象之间的关系,以及对对象的操作。
  • (2)数据挖掘
  • 记录数据、基于图的数据和序列数据等。

6.2 物联网数据存储

  • 面临挑战:
  • 海量存储空间;多源异构,数据的表达需要细致考虑;
  • 支持多粒度分级存储和检索,改善资源利用率,提高资源获取率;
  • 具有实时性的多维检测;
  • 冗余数据需要压缩。
  • 满足条件:
  • 开放兼容,接口与交互协议必须便于物联网信息的发现,定位和获取;屏蔽接口的复杂性,兼容多源异构的物联网;
  • 动态扩展,包括存储能力的动态扩展和数据结构动态可扩展;
  • 可靠高效,支持高并发性,具有高容错能力;
  • 安全可信。
  • 方案评价:
  • 开放性、 扩展性、灵活性、可靠性、高效性、安全性 、可用性、实时性。

6.2.1 关系型数据库

常用物联网数据集 物联网数据处理_常用物联网数据集_02


常用物联网数据集 物联网数据处理_结构化_03


常用物联网数据集 物联网数据处理_结构化_04


常用物联网数据集 物联网数据处理_物联网_05


常用物联网数据集 物联网数据处理_数据_06

  • 关系数据库是建立在关系模型基础上的数据库
  • 关系数据结构
  • 关系数据操作
  • 关系完整性约束

关系数据结构

  • <关系名>(属性名1,属性名2, …… 属性名N)
  • shop(店名,地址,法人名,经营者名,电话)
  • fruit(水果名,价格,库存量,质量等级)
  • book(书名,著者名, 出版社,价格,页数,开本,ISBN,版本)
  • student(姓名,学号,性别,宿舍,电话)
  • 电话号码簿(电话号码,姓名)

关系数据操作

  • 查询操作:选择、投影、连接、并、交、差
  • 更新操作:增加、删除、修改数据的操作

常用三种关系运算

  • 选择运算
  • 投影运算
  • 连接运算


    SQL(structured query language)结构化查询语言
  • SQL(Structured Query Language),是目前关系数据库的标准结构化查询语言,1974年制订。目前流行的是SQL-92标准,它是由ANSI(美国国家标准局)颁布的。

结构化查询语言包括三部分:

  • 数据定义语言DDL
  • 数据操纵语言DML
  • 数据控制语言DCL

DDL用来定义数据库中的表

  • 定义各种表(关系模式) 每个表的列属性名称及类型的定义
  • 输入数据,修改数据
  • 修改表的结构,如增加列
  • 定义候选码,建立索引

DML用来维护数据库中的数据

  • 即对表中数据进行各种处理
  • 表中数据查询 select
  • 在表中插入一行数据(一条记录、一个元组)insert
  • 在表中删除一行数据(一条记录、一个元组)delete
  • 在表中更改一行数据(一条记录、一个元组)update

DCL用来保护数据库的安全操作

  • 授权给用户 grant
  • 回收授权 revoke

常用物联网数据集 物联网数据处理_物联网_07


常用物联网数据集 物联网数据处理_常用物联网数据集_08


常用物联网数据集 物联网数据处理_结构化_09


常用物联网数据集 物联网数据处理_常用物联网数据集_10


常用物联网数据集 物联网数据处理_物联网_11

6.2.2 非关系型数据库

  • 非关系型数据库包括:
  • (1) 键值存储数据库
  • 使用一个哈希表,有一个特定的键值和一个指针指向特定的数据
  • 简单,容易部署
  • 针对部分值更新查询的效率低下
  • (2)列存储数据库
  • 应对分布式存储的海量数据
  • 键指向多个列,列由列家族安排
  • (3)文档型数据库
  • 数据是版本化的文档,半结构化的文档,如Json;
  • 和键值存储是类似的,是键值存储的升级版
  • (4)图形数据库
  • 使用图形模型的数据库
  • (5)感知数据库
  • 面向工业自动化,物联网等领域
  • 既可以进行关系数据管理,也可以在线存储实时特性的时序数据
  • 提供SQL标准接口,也提供实时数据的发布订阅,历史查询,历史数据分析等服务
  • 定位于满足企业级应用的数据库

常用物联网数据集 物联网数据处理_物联网_12


常用物联网数据集 物联网数据处理_物联网_13


常用物联网数据集 物联网数据处理_数据_14


常用物联网数据集 物联网数据处理_物联网_15


常用物联网数据集 物联网数据处理_数据_16


常用物联网数据集 物联网数据处理_物联网_17


常用物联网数据集 物联网数据处理_物联网_18


常用物联网数据集 物联网数据处理_物联网_19


常用物联网数据集 物联网数据处理_结构化_20


常用物联网数据集 物联网数据处理_数据_21


HDFS

  • 内部机制是将一个文件分割成一个或多个块,这些块被存储在一组数据节点中。
  • 名字节点用来操作文件命名空间的文件或目录操作,如打开,关闭,重命名等等。它同时确定块与数据节点的映射。数据节点负责来自文件系统客户的读写请求。
  • 数据节点同时还要执行块的创建,删除,和来自名字节点的块复制指令。

常用物联网数据集 物联网数据处理_物联网_22


常用物联网数据集 物联网数据处理_数据_23


常用物联网数据集 物联网数据处理_结构化_24


常用物联网数据集 物联网数据处理_物联网_25


常用物联网数据集 物联网数据处理_数据_26


常用物联网数据集 物联网数据处理_结构化_27


常用物联网数据集 物联网数据处理_数据_28

6.3 物联网云计算和虚拟化

常用物联网数据集 物联网数据处理_物联网_29


常用物联网数据集 物联网数据处理_常用物联网数据集_30


常用物联网数据集 物联网数据处理_结构化_31


常用物联网数据集 物联网数据处理_物联网_32


常用物联网数据集 物联网数据处理_结构化_33


常用物联网数据集 物联网数据处理_数据_34


常用物联网数据集 物联网数据处理_物联网_35


常用物联网数据集 物联网数据处理_常用物联网数据集_36


常用物联网数据集 物联网数据处理_数据_37


常用物联网数据集 物联网数据处理_物联网_38


常用物联网数据集 物联网数据处理_物联网_39


常用物联网数据集 物联网数据处理_结构化_40


常用物联网数据集 物联网数据处理_数据_41

6.4 物联网数据分析与挖掘

6.4.1 数据的预处理和知识发现

常用物联网数据集 物联网数据处理_物联网_42


常用物联网数据集 物联网数据处理_常用物联网数据集_43


常用物联网数据集 物联网数据处理_结构化_44


常用物联网数据集 物联网数据处理_常用物联网数据集_45


常用物联网数据集 物联网数据处理_常用物联网数据集_46


常用物联网数据集 物联网数据处理_物联网_47


常用物联网数据集 物联网数据处理_常用物联网数据集_48


常用物联网数据集 物联网数据处理_结构化_49


常用物联网数据集 物联网数据处理_数据_50


常用物联网数据集 物联网数据处理_物联网_51


常用物联网数据集 物联网数据处理_物联网_52


常用物联网数据集 物联网数据处理_常用物联网数据集_53

6.4.2 数据挖掘

常用物联网数据集 物联网数据处理_数据_54


常用物联网数据集 物联网数据处理_常用物联网数据集_55


常用物联网数据集 物联网数据处理_数据_56


常用物联网数据集 物联网数据处理_常用物联网数据集_57


常用物联网数据集 物联网数据处理_结构化_58


常用物联网数据集 物联网数据处理_物联网_59


常用物联网数据集 物联网数据处理_物联网_60


常用物联网数据集 物联网数据处理_数据_61


常用物联网数据集 物联网数据处理_结构化_62


常用物联网数据集 物联网数据处理_常用物联网数据集_63


常用物联网数据集 物联网数据处理_常用物联网数据集_64


常用物联网数据集 物联网数据处理_物联网_65


常用物联网数据集 物联网数据处理_物联网_66


常用物联网数据集 物联网数据处理_常用物联网数据集_67

6.4.3 并行处理MapReduce

常用物联网数据集 物联网数据处理_常用物联网数据集_68


常用物联网数据集 物联网数据处理_数据_69


常用物联网数据集 物联网数据处理_数据_70


常用物联网数据集 物联网数据处理_常用物联网数据集_71


常用物联网数据集 物联网数据处理_数据_72


常用物联网数据集 物联网数据处理_数据_73


常用物联网数据集 物联网数据处理_数据_74


常用物联网数据集 物联网数据处理_结构化_75


常用物联网数据集 物联网数据处理_物联网_76


常用物联网数据集 物联网数据处理_物联网_77


常用物联网数据集 物联网数据处理_物联网_78


常用物联网数据集 物联网数据处理_结构化_79


常用物联网数据集 物联网数据处理_物联网_80


常用物联网数据集 物联网数据处理_结构化_81

6.4.4 并行处理Spark

常用物联网数据集 物联网数据处理_数据_82


常用物联网数据集 物联网数据处理_物联网_83

常用物联网数据集 物联网数据处理_数据_84


常用物联网数据集 物联网数据处理_结构化_85


常用物联网数据集 物联网数据处理_结构化_86


常用物联网数据集 物联网数据处理_常用物联网数据集_87


常用物联网数据集 物联网数据处理_结构化_88


常用物联网数据集 物联网数据处理_常用物联网数据集_89


常用物联网数据集 物联网数据处理_结构化_90


常用物联网数据集 物联网数据处理_常用物联网数据集_91


常用物联网数据集 物联网数据处理_数据_92

6.5 物联网的数据检索

6.5.1 文本检索

文本检索是围绕相关度展开的:

  • 基于文字的检索
  • 基于结构的检索
  • 基于用户信息的检索

常用物联网数据集 物联网数据处理_数据_93


常用物联网数据集 物联网数据处理_物联网_94


常用物联网数据集 物联网数据处理_结构化_95


常用物联网数据集 物联网数据处理_物联网_96


常用物联网数据集 物联网数据处理_常用物联网数据集_97


常用物联网数据集 物联网数据处理_结构化_98

6.5.2 流媒体检索

常用物联网数据集 物联网数据处理_物联网_99


常用物联网数据集 物联网数据处理_物联网_100


常用物联网数据集 物联网数据处理_结构化_101


常用物联网数据集 物联网数据处理_结构化_102


常用物联网数据集 物联网数据处理_数据_103


常用物联网数据集 物联网数据处理_物联网_104


常用物联网数据集 物联网数据处理_数据_105


常用物联网数据集 物联网数据处理_数据_106

6.6 物联网数据的可视化技术

常用物联网数据集 物联网数据处理_结构化_107


常用物联网数据集 物联网数据处理_数据_108


常用物联网数据集 物联网数据处理_结构化_109


常用物联网数据集 物联网数据处理_数据_110


常用物联网数据集 物联网数据处理_物联网_111


常用物联网数据集 物联网数据处理_结构化_112


常用物联网数据集 物联网数据处理_常用物联网数据集_113


常用物联网数据集 物联网数据处理_数据_114


常用物联网数据集 物联网数据处理_结构化_115


常用物联网数据集 物联网数据处理_物联网_116


常用物联网数据集 物联网数据处理_常用物联网数据集_117


常用物联网数据集 物联网数据处理_数据_118


常用物联网数据集 物联网数据处理_常用物联网数据集_119


常用物联网数据集 物联网数据处理_物联网_120


常用物联网数据集 物联网数据处理_数据_121


常用物联网数据集 物联网数据处理_结构化_122


常用物联网数据集 物联网数据处理_结构化_123