现在全球数据量以每年60%的速度增长,预计2020年,数据量将进入ZB时代。而大数据的应用又十分的广泛,无论是在学术研究、生产实践、公司战略、国家治理等各个方面都具有非同寻常的意义。因此对大数据的学习和研究是必不可少的。
大数据的核心目标
利用好数据实现大数据的高效存储管理和高价值的挖掘分析
大数据三层结构
- 大数据的计算和处理
- 大数据的存储和管理
- 大数据的采集和预处理
总的来说,大数据向下要使用和管理好各种介质,向上要满足各种大数据的处理和计算需求。
大数据所面临的主观挑战
- 数据量大,从中找出所需要的价值并不容易。
- 数据的种种特性给数据的存储和管理带来了很大的困难。例如:多样性、实时性、不确定性,关联性
大数据所面临的客观挑战
- 数据的爆发性增长,给企业带来了一定的成本压力。
- 技术的不断发展,对从业人员提出更高的要求,从而带来各种管理和结构上的问题。
分布式
大数据采用分布式架构的方式,分布式有可扩展、高可靠、低成本的优点。
分布式所面临的挑战
- 同时性:如何保证在线服务的同时,保证数据的一致性和并发性
- 可靠性:在发生设备故障时,如何保证既有的业务不受影响。
- 差异性:采用分布式的架构,各个设备性能可能并不一致,如何进行负载均衡,保证可靠的同时,降低成本。
分布式的主要问题
- 实现在线事物处理的同时,保证数的一致性和并发性
- 针对不同的大数据处理,分析和查询,进行有效存储的布局和优化
- 在保证运行可靠的情况下,如何降低成本
- 针对更新频繁的数据,如何进行存储和处理