一.大数据技术产生的背景

1. 计算机和信息技术(尤其是移动互联网)的迅猛发展和普及,行业应用系统的规模迅速扩大(用户数量和应用场景,比如facebook、淘宝、微信、银联、12306等),行业应用所产生的数据呈爆炸式增长

2. 动辄达数数百PB甚至EB(1EB=1024PB=1024*1024TB)规模的数据已远超出传统计算机和信息系统的处理能力。

3. 有效的大数据处理技术、方法和手段已成为迫切需求

 

Google的三驾马车为大数据的发展奠定十分重要的基础.

 

 

Google的三驾马车(非常重要):三篇论文---> 思想、原理
1、GFS:google file system ---> HDFS:Hadoop Distributed File System
都是分布式文件系统,用于解决大数据的存储问题。
什么是倒排索引?Reverted Index
倒排索引:

假如要在搜索关键词"大数据",如果只有正向索引 , 那可能需要耗费非常多的时间全表扫描 ,然后关键词为"大数据"的记录 , 数据量庞大的情况下这个过程慢的无法让人发指,

所以有了倒排索引,搜索引擎会将正向索引重新构建为倒排索引,即把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件,这些文件中都出现这个关键词。

通俗说:

通过数据,找地址



2、MapReduce计算模型:问题来源PageRank(先拆分成多个小任务计算 , 再合并计算)

3、BigTable大表 ----> NoSQL数据库:HBase(牺牲空间 , 来换取时间)

 

 

 

二.大数据的应用场景

大数据的应用场景可以说是非常广泛 , 几乎可以涵盖各行各业 . 如

 百度春节人口迁徙,2014 年春节,百度推出了“百度迁徙”,其利用大数据技术,对其拥有 的 LBS(基于地理位置的服务)大数据进行计算分析,并采用创新的“可视化”呈现方式, 在业界首次实现了全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与特 征,如图 1-3所示。(查询网址:http://qianxi.baidu.com/。)

 

 

天气预报的系统 , 电商推荐系统 等等 , 笼统的说可以适用于任何场景.



三.大数据技术的核心问题及方向

(1)数据的存储:分布式文件系统(GFS、HDFS等等)
(2)数据的计算:分布式计算模型(MapReduce、Spark RDD等等)
两个方向:离线计算:Hadoop MapReduce、Spark Core、Flink DataSet
实时计算:Storm、Spark Streaming、Flink DataStream

 

四.数据仓库

传统的数据仓库:Oracle、MySQL等

大数据:Hadoop、Spark、Flink都可以看成是数据仓库的一种实现方式

 

概念:OLTPOLAP
数据仓库又是一种OLAP的系统
OLTP:online transaction processing 联机事务处理
insert update delete commit rollback
特点:ACID 原子性、一致性、持久性、隔离性 -----> 关系型数据库

OLAP:online analytic processing 联机分析处理
一般:select
不关心事务

 

划出hadoop技术架构生态圈技术框架图谱 举例说明hadoop生态圈_数据

 

 

 

五.Hadoop生态圈的体系机构(Apache 简单版)

划出hadoop技术架构生态圈技术框架图谱 举例说明hadoop生态圈_数据_02