1 什么是大数据
1、Big data is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using traditional data processing apllications.
-http://en.wikipedia.org/wiki/Big_data
2、如果一个数据集的规模或者是其处理的复杂性,用传统的数据处理系统难以驾驭的话,我们就把这样的数据集称为大数据。
3、大数据系统是用于大数据分析处理的软件系统。
2 大数据典型应用
1、沃尔玛“啤酒加尿布”经典案例,1993年
2、塔吉特百货孕妇营销分析,2002年
3、谷歌对流感的成功预测,2009年
4、奥巴马借助大数据连任成功,2012年
5、微软大数据成功预测奥斯卡21项大奖,2013年
3 大数据的特点
1、大数据的规模,从TB,PB,EB,ZB甚至到了ZB级
2、多样的数据类型
(1)结构化数据(关系):先有模式,后有数据
(2)半结构化数据(XML):先有部分模式
(3)非结构化数据(文本):先有数据,后有模式
3、大数据分析生命周期
获取、记录–>抽取、清洗–>集成、聚合–>分析、建模–>解释、展示
5个共性的基础问题:异构、规模、时效、隐私、协同
4、大数据深度加工
(1)数据Raw data
i.e.,uprocessed data,refers to a collection of numbers,characters and is a relative term
(2)信息Information
is that which informs,i.e. that from which data can be derived.
(3)知识Knowledge
can refer to a theoretical or practical understanding of a subject.
(4)智慧Insight
is the understanding of a specific cause and effect in a specitfic context
5、大数据处理方式
(1)批量 Batch
(2)在线 Online
(3)实时 Real-time
6、大数据的用户:内部用户和外部用户
(1)Data Provider - makes available data internal and/or external to the system
(2)Data Consumer - uses the output of the system
(3)System Orchestrator - governance,requirements,monitoring
(4)Big Data Application Provider - instantiates application
(5)Big Data Framework Provider - provides resources and platforms
7、大数据的质量
(1)精确性:数据是否精确表述一个事实
(2)完整性:是否所有必要的数据都已经实现
(3)一致性:不同数据实体间关系是否一致
(4)时效性:数据及其起源是否能够及时获取
8、大数据的价值
(1)价值密度的稀疏
(2)大量样本的长尾
4 大数据技术体系
1、大数据技术体系现状
2、数据质量-无法回避的挑战
(1)传统数据质量仅通过ETL方式执行
–即抽取、转换、加载,包括解析、模式分析等
–没有完全覆盖数据质量的基本性质
(2)挑战
–分布式环境中,如何保障全局数据的一致性、精确性、完整性
–流处理环境中,如何保证时效性,例如,时序一致性。
(3)在大数据中保证绝对的数据质量并不现实
–高维、异质、模糊、海量、多变
3、存储的老问题、新挑战:多副本、高并发、分布式索引、流式技算、磁盘压缩、集群管理等。
4、某些(核心)转变
(1)Hash大于扫描
(2)单副本转向多副本
(3)单阶段转为多阶段
(4)压缩不再解压
5、大数据分析的特点
类别 | 传统BI | 数据科学&大数据分析 |
焦点 | 发生了什么 | 将要发生什么 |
数据 | 小规模、干净数据,简单的统计模型 | 大规模、多样化、无关联数据、语义模糊、复杂的预测模型 |
支持 | 因果分析:事件及其发生的原因 | 关联分析:利用多个弱关联数据源发现有潜在价值的结果 |
6、大数据要解决的主要问题
(1)监控动态流数据,跟踪变化趋势,而非仅仅考虑静态数据
(2)和数据科学家一起工作,而非仅依靠数据分析师
(3)将分析工具集成到核心业务和营运环节
7、可视化的挑战
将大规模数据中蕴含的信息、知识与规律,利用计算机软件更好地揭示出来
8、计算范型
(1)数据找程序 -> 程序找数据
(2)Scale Up -> Scale Out
(3)传统计算 -> 云计算 Virtual Machine & Multi Tenants
(4)CPU -> HPU (Crowdsourcing)
5 大数据生态系统
1、大数据生态系统
2、Hadoop的生态圈
3、Berkeley大数据处理平台(BDAS)
BDAS的优势
(1)综合性的解决方案:在统一的框架内开发大数据音乐
(2)高效的解决方案:BDAS的目标是快速处理大量数据
\ | 主流解决方案 | BDAS解决方案 | BDAS的优势 |
文件系统 | HDFS | Tachyon | 数据读写速度提高300倍 |
MapReduce | Hadoop | Spark | 运行速度提高10-100倍 |
SQL查询 | Hive | Shark | 查询速度提高40倍 |
处理数据流 | Storm | Spark Streaming | 处理速度提高2倍 |
图运算 | Hadoop | GraphX | 运算速度提高10倍 |
6 大数据技术挑战
1、人们普遍认识到了数据“大”(Volume),不是数据科学面临的全部挑战,甚至不是主要挑战。来自不同数据源的、不同类型、不同语义(Variety)的数据集合的深度综合与融合问题远没有解决,同时,物联网、传感网、穿戴设备等机器数据的快速到达(Velocity),对数据处理的时效性提出了更大的挑战,除此之外数据隐私与可用性(包括数据质量)问题更是存在挑战
2、数据科学(包括大数据技术)的创新与探索刚刚起步,并行进在泥泞当中。