当今世界,科技进步日新月异,互联网、云计算、大数据等现代信息技术深刻改变着人类的思维、生产、生活、学习方式,深刻展示了世界发展的前景。未来的互联网就是大数据和云计算的天下,不管你是否认同,大数据时代已经来临,并将深刻地改变着我们的工作和生活。学习大数据技术,是时代的召唤,是社会对高薪技术人才的渴望,但学习大数据为什么一定要学习Hadoop呢?

什么是大数据?

大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。或许对很多人来说这样的概念还是太抽象了,为了更好的理解什么是大数据,我们从以下几个关键词来切入更形象的对大数据做一个界定。

首先,大数据“规模大”,这种规模可以从两个维度来衡量,一是从时间序列累积大量的数据。

二是,在深度上更加细化的数据。 其次,大数据“多样化”,可以是不同的数据格式,如文字、图片、视频等,可以是不同的数据类别,如人口数据,经济数据等,还可以有不同的数据来源,如互联网、传感器等。

第三,大数据“动态化”。数据是不停地变化的,可以随着时间快速增加大量数据,也可以是在空间上不断移动变化的数据。

什么是Hadoop?

Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

为什么说学习大数据必须学Hadoop?

刚刚我们已经分析了什么是大数据,也明白了什么是Hadoop,为什么说学习大数据必须学Hadoop呢?大数据就是大量的海量的数据,面对这些海量数据传统的数据存储方式已经无法满足需求,而Hadoop技术完美的解决了这个问题,用简单、直接、明了的一句话来说就是:Hadoop解决了大数据如何存储的问题!