大数据相关认识

说道大数据,谷咕咕就很烦了,因为大学期间,做过爬虫,数据抓取,安装过Hadoop和hive,但是都不知道干嘛的,起码爬虫还知道,通过正则表达式将网页中的有效信息爬取下来。但是Hadoop和Hive一直是在Ubuntu上安装,不同什么意思,以至于后来看到,别人说Hadoop和Hive的时候就很尴尬,装过竟然不知道什么用。
所今天就稍微的记录一下。

大数据的特点

在网上常常听到4v,说的就是大数据的特点四个英文单词的首字母。

  • Volume(数据量大)
  • Velocity(数据速度快)
  • Variety(数据类型繁多)
  • Value(数据价值密度低)
    之前看文章时候5v的,他多了一个Veracity(真实性)

大数据的关键技术

数据采集:
利用轻量级的数据库手法客户端的数据,进行初步的查询和处理。
问题:是高并发。
工具:MySQL、Oracle
数据分析:
将数据快速导入到一个集中的分布式数据库或者,分布式存储集群,利用分布式技术存储大量数据,进行查询和分类汇总。
问题:导入数据量大,查询数据量大,查询请求多。
工具:Hadoop、hive
数据挖掘:
基于前面的数据进行数据挖掘、来满足高级别的数据分析需求。
问题:算法复杂,并涉及的数据量和计算量都大。
工具:R、Hadoop mahout

Hadoop

Hadoop是分布式批量处理系统,对大型数据集进行扫描,以产生其结果。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop让用户也可以不用知道分布式算法下,根据MapReduce的规则定义好的接口方法。
Hadoop将1PB的数据导入HDFS中,然后编程人员定义好map和reduce,定义好key和value,然后正则匹配成功,将结果通过reduce聚合起来返回,Hadoop就会吧这个程序分布到不同的结点并行处理。

云计算

云计算实现了分布式的计算能力,用户只要通过网络接入就可以获得所需的资源。
云计算的关键技术:
虚拟化、分布式存储、分布式计算、多租户。
云计算数据中心为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供支撑环境。

物联网

物联网是物物相连的互联网,利用互联网吧传感器、控制器、机器、人员和物联在一起。实现信息化管理。
物联网关键技术
识别和感知结束(二维码、传感器)、网络与通信技术、数据挖掘与融合技术
物联网的应用
智能交通、只会医疗、智能家居等

大数据、云计算、物联网之间的关系

云计算为大数据提供技术基础。
云计算为物联网提供海量数据存储能力。
物联网是大数据重要来源。
大数据为物联网数据分析提供支撑。