spark安装对应Hadoop版本 spark一定要装hadoop

转载

mob64ca1403528a 2023-10-23 22:10:55

文章标签 spark安装对应Hadoop版本 spark hadoop big data 数据 文章分类 Spark 大数据

一.spark与hadoop的不同点

1.应用场景不同

Hadoop和Spark两者都是大数据框架，但是各自应用场景是不同的。Hadoop是一个分布式数据存储架构，它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，降低了硬件的成本。Spark是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它要借助hdfs的数据存储。

2.处理速度不同

hadoop的MapReduce是分步对数据进行处理的，从磁盘中读取数据，进行一次处理，将结果写到磁盘，然后在从磁盘中读取更新后的数据，再次进行的处理，最后再将结果存入磁盘，这存取磁盘的过程会影响处理速度。
spark从磁盘中读取数据，把中间数据放到内存中，，完成所有必须的分析处理，将结果写回集群，所以spark更快。

3.容错性不同

Hadoop将每次处理后的数据都写入到磁盘上，基本谈不上断电或者出错数据丢失的情况。Spark的数据对象存储在弹性分布式数据集 RDD，RDD是分布在一组节点中的只读对象集合，如果数据集一部分丢失，则可以根据于数据衍生过程对它们进行重建。而且RDD 计算时可以通过 CheckPoint 来实现容错。

4.spark与hadoop的联系

Hadoop提供分布式数据存储功能HDFS，还提供了用于数据处理的MapReduce。 MapReduce是可以不依靠spark数据的处理的。当然spark也可以不依靠HDFS进行运作，它可以依靠其它的分布式文件系统。但是两者完全可以结合在一起，hadoop提供分布式集群和分布式文件系统，spark可以依附在hadoop的HDFS代替MapReduce弥补MapReduce计算能力不足的问题。

二.安装Spark

1.下载安装包
点击下载

2.放到opt或者你自己的目录：

spark安装对应Hadoop版本 spark一定要装hadoop_数据

3.解压

tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz

spark安装对应Hadoop版本 spark一定要装hadoop_spark安装对应Hadoop版本_02

4.配置环境变量

进入文件：

vi /etc/profile

配置环境变量：

#spark，注意spark安装路径
export SPARK_HOME=/opt/spark/spark-2.4.4-bin-hadoop2.7
export PATH=$SPARK_HOME/bin:$PATH

spark安装对应Hadoop版本 spark一定要装hadoop_hadoop_03

配置文件立即生效：

source /etc/profile

5.启动
进入解压目录：

cd /opt/spark/spark-2.4.4-bin-hadoop2.7

启动：

spark-shell

spark安装对应Hadoop版本 spark一定要装hadoop_spark_04

6.本地web浏览器访问

ip:4040

spark安装对应Hadoop版本 spark一定要装hadoop_数据_05

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：海峰学python 海峰学者

下一篇：mysql 设置数据库事物级别 mysql默认的事物级别

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯