首先得了解大数据是什么?
数据集的大小已经远远超过了现有传统的技术方案(数据库)或工具他们的处理能力的数据。简单点来说就是传统的技术解决不了或者处理太慢,所以才有了大数据。
大数据有哪些特点?
一.Volume海量化 (处理的数据量大)
二.Variety多样化 (数据类型复杂,大部分都是结构化,半结构化数据)
三.Velocity快速化 (处理大量数据快,数据的增长率快)
四.value价值高 (以低成本创造高价值)

大数据能做什么
首先前提是海量数据的情况下
1.快速查询
2.数据存储
3.快速计算
4.实时计算
5.数据挖掘
大数据对比传统技术处理方式区别

传统数据							  		 大数据
拓展性  	 纵向拓展(遇到瓶颈,硬件升级)						横向拓展(遇到瓶颈,增加硬件)、
分布式	     资源集中(集中计算,集中存储,串行处理)     		资源分布(分布计算,分布存储,并行处理)
可用性	     单份数据(数据都集中在一台大的数据库中)      		数据复制(大数据会将数据切分并且复制两份分配存储到服务器集群中)
模型		 移动数据(处理数据是需要将数据取出再计算再存入)    移动计算程序(将需要计算的程序放到服务器集群中)

大数据技术快的原因
1、分布式存储
2、分布式并行计算
3、移动程序到数据端
4、更前卫、更先进的实现思路
5、更细分的业务场景
6、更先进的硬件技术+更先进的软件技术
大数据的项目流程

第一步:生产数据
第二步:收集数据
第三步:存储数据
第四步:分析需求
第五步:数据预处理
第六步:数据计算
第七步:结果存储
第八步:结果展现