Windows下的搭建Hadoop、Spark和Scala编程环境

本文是基于Windows 10系统环境,搭建Hadoop、Spark和Scala编程环境

  • Windows 10
  • IntelliJ
  • scala-2.11.12
  • spark-2.4.3-bin-hadoop2.7
  • hadoop-2.7.1

一、JDK安装

(1) 下载jdk

首先需要安装JDK,jdk-8u221-windows-x64.exe 然后双击安装到指定的目录,本文安装到 C:\Program Files\Java\jdk1.8.0_181,无论读者安装到哪个目录下,请记住该目录,在配置环境变量时,会用到该目录

windows搭建Hdfs_spark

(2) 配置环境变量

  • 新建一个系统变量 JAVA_HOME
  • 然后编辑系统变量 PATH
  • 新建一个系统变量 CLASSPATH

(3) 验证java安装是否成功

  • 打开的cmd命令行窗口下运行下面命令,查看是否设置成功。
java -version

windows搭建Hdfs_spark_02

二、scala安装

(1) 下载scala

  • 首先下载scala,scala-2.11.12.msi 然后双击安装到指定的目录,本文安装到 D:\Program\scala,无论读者安装到哪个目录下,请记住该目录,在配置环境变量时,会用到该目录

(2) 配置环境变量

  • 新建一个系统变量 SCALA_HOME
  • 然后编辑系统变量 PATH
  • 修改系统变量 CLASSPATH

(3) 验证scala安装是否成功

  • 打开的cmd命令行窗口下运行下面命令,查看是否设置成功。
scala

windows搭建Hdfs_Hadoop_03

三、Hadoop安装

(1) 下载Hadoop

hadoop-2.7.1.tar.gz

windows搭建Hdfs_spark_04

  • 使用管理员身份,去解压 hadoop-2.7.1.tar.gz,不使用管理员身份会出错
  • 本文解压到了 D:\Program\hadoop\hadoop-2.7.1

(2) 配置环境变量

  • 新建一个系统变量 HADOOP_HOME
  • 然后编辑系统变量 PATH

(3) 下载winutils.exe文件

  • 下载 winutils.exe
  • windows搭建Hdfs_scala_05

  • 将下载好winutils.exe后,将这个文件放入到Hadoop的bin目录下,我这里是D:\Program\hadoop\hadoop-2.7.1
  • windows搭建Hdfs_spark_06

四、spark安装

(1) 下载spark

  • 首先下载带有Hadoop版本的spark,spark-2.4.3-bin-hadoop2.7
  • 下载后得到了大约200M的文件: spark-2.4.3-bin-hadoop2.7.tgz

(2) 解压spark安装包

  • 使用管理员身份,去解压 spark-2.4.3-bin-hadoop2.7.tgz,不使用管理员身份会出错
  • 并且需要注意的是,在Spark的文件目录路径名中,不要出现空格,类似于“Program Files”这样的文件夹名是不被允许的。
  • 本文将Spark安装在以下的目录 D:\Program\spark

(3) 配置环境变量

  • 然后编辑系统变量 PATH

(4) 验证spark安装是否成功

  • 打开的cmd命令行窗口下运行下面命令,查看是否设置成功。
spark-shell

windows搭建Hdfs_scala_07

五、安装scala的IDEA插件

(1) 下载scala插件

(2) 配置scala环境

  1. 点击【项目】
  2. 选择【Add Framework Support…】
  3. 选择【scala】
  4. 点击【create】
  5. 选择scala的安装目录