上篇博客写了下在Windows下安装Spark本地应用的方法,虽然如此,但其实我最想做的是在Linux下的Spark集群环境的搭建,如今实际使用的时候基本上都是在Linux上运行的,搭建一个Windows下的本地应用实在是不熟悉Linux,不熟悉Spark等,因此想先搞明白Spark是什么,搭建出来后是什么样子,为了熟悉这些内容,当然最好的方式就是在熟悉的Windows环境下搭建出来,现在基本情况了解了,可以尝试在Linux下搭建集群了。
可以回顾一下,根据在Windows下安装的经验,可以知道,安装Spark的关键有几个:JDK的安装,环境变量的配置,如果集群的话应该还有Spark中配置文件的配置。
现在有几个先验知识需要提前了解或申明吧——
spark有三种工作模式:本地模式、HA模式和伪分布式模式。
首先,测试虚拟机之间的连接情况:
![Spark1的IP情况]()
![主机的IP情况]()
然后ping主机,发现能ping通,但是MTPutty连不上虚拟机,遇到这个问题一般是虚拟机没有安装SSHD服务,主机和虚拟机的连接是通过此服务来进行的,后续spark的集群也会用到这个。因此可以安装这个服务:
sudo apt-get install openssh-server
如果出现了主机ping不通虚拟机,但是虚拟机可以ping通主机,那么有两种可能:
1、虚拟机的网络连接方式没有使用桥接的方式,设置下就好;
2、没有关闭虚拟机的防火墙,这个可以在网上找下关闭的方法,有很多。
安装完SSH服务后,应该在MTPutty上就可以看得到了(此处不详述Putty和MTPutty和WinSCP的使用方法)。
另外,在此多说一句,虚拟机的IP最好设置成静态的,否则后续每次打开虚拟机,可能都要设置MTPutty和WinSCP的IP,设置静态IP的方法网上说的很复杂(个人觉得哈……需要用命令行设置文件),其实如果是在Ubuntu系统下就非常简单了,直接在下图所示的位置点击编辑就好了:
下面开始谈下环境搭建,这里采用最简单的master-slave模式进行环境搭建。
未完,待续……