1.什么是大数据

大数据是一种方法论,一句话概括,就是通过分析和挖掘全量的非抽样的数据来辅助决策。

2.结构化数据与非结构化数据

  • 什么是结构化数据
    结构化数据是指驻留在记录或文件中的固定字段中的任何数据。这包括关系数据库和电子表格中包含的数据。

结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进彳存储和管理。

  • 结构化数据特点
    1.结构化数据取决于数据模型的创建
    2.结构化数据具有易于输入,存储,查询和分析的优点。
  • 非结构化数据
    非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

3.数据的单位

1B(Byte字节)=8bit
1KB (Kilobyte 千字节)=1024B,
1MB (Mega byte 兆字节 简称“兆”)=1024KB,
1GB (Giga byte 吉字节 又称“千兆”)=1024MB,
1TB (Tera byte 万亿字节 太字节)=1024GB,其中1024=2^10 ( 2 的10次方),
1PB(Peta byte 千万亿字节 拍字节)=1024TB,
1EB(Exa byte 百亿亿字节 艾字节)=1024PB,
1ZB (Zetta byte 十万亿亿字节 泽字节)= 1024 EB,
1YB (Yotta byte 一亿亿亿字节 尧字节)= 1024 ZB,
1BB (Bronto byte 一千亿亿亿字节)= 1024 YB
1NB(Nona byte )= 1024BB
1DB(Dogga byte)= 1024NB

4.数据分析流程

1)数据的采集抽取:数据采集要尽量广撒网。更多的数据—-特别是更多的不同来源的数据。
2)ETL(关键):用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
3)数据分析:数据分析是用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。更高级的分析方法就是数据挖掘。
4)数据显示:数据通过表格和图形的方式来呈现(饼图、柱形图、条形图、折线图等)。

5.数据计算模式

大数据的计算模式

典型系统和工具

大数据查询分析计算

HBase,Hive,Cassandra,Redis,Premel等

批处理计算

MapReduce,Spark等

流式计算

Scribe,Flume,S4等

迭代计算

HaLoop,iMapReduce,Spark等

图计算

Pregel,Giraph,Trinity等

内存计算

Dremel,Hana,Redis等

hadoop推荐CDH核心的,
1.是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建
2.基于Web的用户界面

6.分布式系统

分布式系统是一个硬件或软件组件分布在不同的网络计算机上,彼此之间仅仅通过消息传递进行通信和协调的系统

简单来说就是一群独立计算机集合共同对外提供服务,但是对于系统的用户来说,就像是一台计算机在提供服务一样。分布式意味着可以采用更多的普通计算机(相对于昂贵的大型机)组成分布式集群对外提供服务。计算机越多,CPU、内存、存储资源等也就越多,能够处理的并发访问量也就越大。

  • 分布式领域CAP理论
    Consistency(一致性), 数据一致更新,所有数据变动都是同步的
    Availability(可用性), 好的响应性能
    Partition tolerance(分区容错性) 可靠性

定理:任何分布式系统只可同时满足二点,没法三者兼顾。