Spark源码分析 spark开源项目

转载

Aceryt 2023-11-13 09:37:53

文章标签 Spark源码分析 spark hadoop SPARK 文章分类 Spark 大数据

1. Spark项目介绍

Spark是berkerly大学发起的一个开源项目，全部代码用scala编写，项目发起的目的是为了解决hadoop在处理迭代式计算模式上的不足；总的来说，MR的计算模式适合流式计算，但对于需要大量迭代计算的机器学习来说，hadoop的短板就很明显了，曾经用hadoop实现过k-means的算法，计算效率实在不敢恭维，大量的时间消耗在IO上了。Spark看到了这一点，通过将数据cache在内存里面，将数据和计算绑定的方式(这一点充分利用了scala这门语言的特性，比如闭包)，可以达到快速迭代计算的效果。另外Spark的作者还设计了一种RDD的数据结构，将job切分为stage，stage之间有dependence，这样这个Job就是一个DAG；如果某一个stage失败了，调度中心会根据dependence重新计算改stage，这样确保了集群的容错性。附：Spark项目的地址：https://github.com/mesos/spark。

Spark现在的运行有如下几种模式：

local模式，分为local模式和local cluster模式，区别在于前者是在本地开启多线程；后者则是在本地生成多个worker的actor，并绑定127.100.0.*到worker的actor上，模拟集群的运行，目前这个模式在finish job之后，会存在worker节点关闭失败的bug；
集群模式：mesos和standalone模式。mesos模式是指Spark需要运行在基于mesos的调度平台上，Job会提交到mesos平台，由mesos进行Job的调度；standalone模式，是Spark会独立启动一个master节点，改节点负责对集群中的workers节点的监控，以及提交到集群上的Jobs的调度；

该系列主要针对standalone模式进行简单的分析。

2. Spark的安装

scala项目的安装目前最好的管理工具是sbt，不过介于sbt语法比较晦涩，笔者推荐maven的管理和安装方式，目前的0.7.0版本已经支持通过maven管理整个项目了；安装前需要安装scala，maven；

下载安装：

1. git clone https://github.com/mesos/spark
2. mvn -Phadoop1 -DdisplayCmd=true install

3. Spark的启动

本文的master/work节点，配置在同一台机器上：

1. 首先需要确保ssh localhost能够实现无密码访问，配置方式如下，其中权限的设置很必要：

ssh-keygen -t rsa
cd ~/.ssh
cat id_rsa.pub >> authorized_keys
chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys

2. 在$SPARK_HOME/conf目录下，新建slavers文件，localhost加入，另外编辑spark-env.sh添加

export SPARK_MASTER_IP=localhost

注：如果localhost不行的话，改为本地ip试试；

$SPARK_HOME/bin目录下有spark的启动脚本；

启动方式如下：

bin/start-all.sh

启动成功后，locahost:8080可以看到类似于hadoop的jobtracker的webui页面：

4. 运行样例

在$SPARK_HOME目录，执行如下命令：

./run spark.examples.SparkPi spark://localhost:7077 2

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java bean的加载顺序 bean加载方式

下一篇：桌面云中瘦终端通常采用什么架构和操作系统桌面云瘦终端必须用吗

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯