一、大数据的定义
大数据普通的分析维度:
1、数据量(大容量):数据量大
2、数据的速度(高效性):数据的实时性
3、数据的多样性(多类型):数据的类型多种多样,有以关系型数据库中的数据为代表的结构化数据和以日志型数据为代表的非结构化数据,同时也有音频和视频等为代表的多媒体非结构化数据。
4、低价值密度(低密度):数据量大,但是价值米读比较低,需要从海量的数据中精确的定位到某个人或者事物在这一小段时间范围内的数据,进行进一步的分析与处理。
5、真实性(信息有效性)
二、大数据的结构类型
大数据包括:
1、结构化
2、半结构化
3、准结构化
4、非结构化数据
结构化数据:典型的就是以关系型数据库为代表的二维数据表格、一般被用于多种网站和系统的后台的数据库中。
半结构化数据:包括关系型数据库和日志型纯文本数据
准结构化:可以理解为具有一定的数据结构类型,典型的是XML、HTML和JSON
非结构化数据:办公文档、XML、HTML、JSON、各类报表、图片信息,音频信息、视频信息、服务器日志信息、纯文本数据等。
三、大数据处理平台的基础架构
大数据梳理平台的基础结构包含的基本能力组件:
1、数据聚合
2、文件存储
3、数据存储
4、API
5、数据分析与计算
6、平台管理与监控
四、大数据处理中的存储技术
1、提升大数据存储的容量
a、提升单磁盘的容量
b、提升多磁盘环境下系统的整体存储容量
2、提升大数据存储的吞吐量
a、分布式缓存
b、数据存储本地化
c、数据存储分布式
d、提升分布式存储的宽带
e、提升分布式存储的I/O性能
f、提升分布式存储的并发
五、大数据处理中的计算技术
1、多处理技术
2、并行计算
3、高并发计算
4、离线批处理计算
5、在线实时计算
六、大数据处理中的容错性
1、数据存储容错性
1)、提高服务器磁盘的容错性
硬件:磁盘镜像和磁盘双工
2)、提高基于冗余的数据容错性
典型场景:集群
3)提高基于数据镜像的数据容错性
方案:定期将数据备份下来形成数据镜像