目录:
- 一.spark与hadoop的不同点
- 1.应用场景不同
- 2.处理速度不同
- 3.容错性不同
- 4.spark与hadoop的联系
- 二.安装Spark
基于centos7, hadoop2.7.3, spark-2.4.4-bin-hadoop2.7.tgz
一.spark与hadoop的不同点
1.应用场景不同
Hadoop和Spark两者都是大数据框架,但是各自应用场景是不同的。Hadoop是一个分布式数据存储架构,它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,降低了硬件的成本。Spark是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它要借助hdfs的数据存储。
2.处理速度不同
hadoop的MapReduce是分步对数据进行处理的,从磁盘中读取数据,进行一次处理,将结果写到磁盘,然后在从磁盘中读取更新后的数据,再次进行的处理,最后再将结果存入磁盘,这存取磁盘的过程会影响处理速度。
spark从磁盘中读取数据,把中间数据放到内存中,,完成所有必须的分析处理,将结果写回集群,所以spark更快。
3.容错性不同
Hadoop将每次处理后的数据都写入到磁盘上,基本谈不上断电或者出错数据丢失的情况。Spark的数据对象存储在弹性分布式数据集 RDD,RDD是分布在一组节点中的只读对象集合,如果数据集一部分丢失,则可以根据于数据衍生过程对它们进行重建。而且RDD 计算时可以通过 CheckPoint 来实现容错。
4.spark与hadoop的联系
Hadoop提供分布式数据存储功能HDFS,还提供了用于数据处理的MapReduce。 MapReduce是可以不依靠spark数据的处理的。当然spark也可以不依靠HDFS进行运作,它可以依靠其它的分布式文件系统。但是两者完全可以结合在一起,hadoop提供分布式 集群和分布式 文件系统,spark可以依附在hadoop的HDFS代替MapReduce弥补MapReduce计算能力不足的问题。
二.安装Spark
1.下载安装包
点击下载
2.放到opt或者你自己的目录:
3.解压
tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz
4.配置环境变量
进入文件:
vi /etc/profile
配置环境变量:
#spark,注意spark安装路径
export SPARK_HOME=/opt/spark/spark-2.4.4-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH
配置文件立即生效:
source /etc/profile
5.启动
进入解压目录:
cd /opt/spark/spark-2.4.4-bin-hadoop2.7
启动:
spark-shell
6.本地web浏览器访问
ip:4040