1 什么是大数据

1、Big data is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using traditional data processing apllications.
-http://en.wikipedia.org/wiki/Big_data
2、如果一个数据集的规模或者是其处理的复杂性,用传统的数据处理系统难以驾驭的话,我们就把这样的数据集称为大数据。
3、大数据系统是用于大数据分析处理的软件系统。

2 大数据典型应用

1、沃尔玛“啤酒加尿布”经典案例,1993年
2、塔吉特百货孕妇营销分析,2002年
3、谷歌对流感的成功预测,2009年
4、奥巴马借助大数据连任成功,2012年
5、微软大数据成功预测奥斯卡21项大奖,2013年

3 大数据的特点

1、大数据的规模,从TB,PB,EB,ZB甚至到了ZB级
2、多样的数据类型
(1)结构化数据(关系):先有模式,后有数据
(2)半结构化数据(XML):先有部分模式
(3)非结构化数据(文本):先有数据,后有模式
3、大数据分析生命周期
获取、记录–>抽取、清洗–>集成、聚合–>分析、建模–>解释、展示
5个共性的基础问题:异构、规模、时效、隐私、协同
4、大数据深度加工
(1)数据Raw data
i.e.,uprocessed data,refers to a collection of numbers,characters and is a relative term
(2)信息Information
is that which informs,i.e. that from which data can be derived.
(3)知识Knowledge
can refer to a theoretical or practical understanding of a subject.
(4)智慧Insight
is the understanding of a specific cause and effect in a specitfic context
5、大数据处理方式
(1)批量 Batch
(2)在线 Online
(3)实时 Real-time
6、大数据的用户:内部用户和外部用户
(1)Data Provider - makes available data internal and/or external to the system
(2)Data Consumer - uses the output of the system
(3)System Orchestrator - governance,requirements,monitoring
(4)Big Data Application Provider - instantiates application
(5)Big Data Framework Provider - provides resources and platforms
7、大数据的质量
(1)精确性:数据是否精确表述一个事实
(2)完整性:是否所有必要的数据都已经实现
(3)一致性:不同数据实体间关系是否一致
(4)时效性:数据及其起源是否能够及时获取
8、大数据的价值
(1)价值密度的稀疏
(2)大量样本的长尾

4 大数据技术体系

1、大数据技术体系现状


2、数据质量-无法回避的挑战

(1)传统数据质量仅通过ETL方式执行

–即抽取、转换、加载,包括解析、模式分析等

–没有完全覆盖数据质量的基本性质

(2)挑战

–分布式环境中,如何保障全局数据的一致性、精确性、完整性

–流处理环境中,如何保证时效性,例如,时序一致性。

(3)在大数据中保证绝对的数据质量并不现实

–高维、异质、模糊、海量、多变

3、存储的老问题、新挑战:多副本、高并发、分布式索引、流式技算、磁盘压缩、集群管理等。

4、某些(核心)转变

(1)Hash大于扫描

(2)单副本转向多副本

(3)单阶段转为多阶段

(4)压缩不再解压

5、大数据分析的特点

类别

传统BI

数据科学&大数据分析

焦点

发生了什么

将要发生什么

数据

小规模、干净数据,简单的统计模型

大规模、多样化、无关联数据、语义模糊、复杂的预测模型

支持

因果分析:事件及其发生的原因

关联分析:利用多个弱关联数据源发现有潜在价值的结果

6、大数据要解决的主要问题

(1)监控动态流数据,跟踪变化趋势,而非仅仅考虑静态数据

(2)和数据科学家一起工作,而非仅依靠数据分析师

(3)将分析工具集成到核心业务和营运环节

7、可视化的挑战

将大规模数据中蕴含的信息、知识与规律,利用计算机软件更好地揭示出来


8、计算范型

(1)数据找程序 -> 程序找数据

(2)Scale Up -> Scale Out

(3)传统计算 -> 云计算 Virtual Machine & Multi Tenants

(4)CPU -> HPU (Crowdsourcing)

5 大数据生态系统

1、大数据生态系统


2、Hadoop的生态圈


3、Berkeley大数据处理平台(BDAS)


BDAS的优势

(1)综合性的解决方案:在统一的框架内开发大数据音乐

(2)高效的解决方案:BDAS的目标是快速处理大量数据

\

主流解决方案

BDAS解决方案

BDAS的优势

文件系统

HDFS

Tachyon

数据读写速度提高300倍

MapReduce

Hadoop

Spark

运行速度提高10-100倍

SQL查询

Hive

Shark

查询速度提高40倍

处理数据流

Storm

Spark Streaming

处理速度提高2倍

图运算

Hadoop

GraphX

运算速度提高10倍

6 大数据技术挑战

1、人们普遍认识到了数据“大”(Volume),不是数据科学面临的全部挑战,甚至不是主要挑战。来自不同数据源的、不同类型、不同语义(Variety)的数据集合的深度综合与融合问题远没有解决,同时,物联网、传感网、穿戴设备等机器数据的快速到达(Velocity),对数据处理的时效性提出了更大的挑战,除此之外数据隐私与可用性(包括数据质量)问题更是存在挑战
2、数据科学(包括大数据技术)的创新与探索刚刚起步,并行进在泥泞当中。