1、官网下载安装包或者编译包:

https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz

2、解压到安装目录-自定义目录,配置环境变量

3、安装java和scala;

4、运行安装目录下的spark-shell:这个入口是scala;

5、安装idea;

6、配置idea开发环境:
下面介绍本地spark开发的示例,虽然spark是处理大数据的,常常在大型计算机集群上运行,但本地spark方便调试,可以帮助我们学习相关的语法。
打开idea, file=>new=>project=>选择scala工程,选择IDEA=>输入工程名(如test),路径,JDK选刚刚安装的1.8,scala SDK选刚刚安装的scala-sdk-2.11.8(或者点右边的create,选择你想要的版本下载)=>finish

再src上右键=>new=>scala class=>选下拉框scala object,输入类名。

输入测试代码,这是一段分组排序的代码:

import org.apache.spark.{SparkContext,SparkConf}
object Sort {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("GroupSort")
    val sc = new SparkContext(conf)
    val test =List(("key1","123",12,2,0.13),("key1","123",12,3,0.18),("key2","234",12,1,0.09),("key1","345",12,8,0.75),("key2","456",12,5,0.45))
    val rdd = sc.parallelize(test)
 
    val rdd1= rdd.map(l => (l._1, (l._2, l._3, l._4, l._5))).groupByKey()
      .flatMap(line => {
        val topItem = line._2.toArray.sortBy(_._4)(Ordering[Double].reverse)
          topItem.map(f=>(line._1,f._1,f._4)).toList
      })
    rdd1.foreach(println)
 
    sc.stop()
  }
}

设置本地模式:run=>edit configrations=>Application=>选择我们应用,VM options上添加-Dspark.master=local, 此处也可以定义输入输出的参数

包含spark和scala sdk: File=>Project Structure=>open module settings=> project settings=> libraries=>"+"=>java=>选择spark安装目录下的jars文件夹=>确认。同样地,“+”=>scala sdk =>选择需要的scala sdk(与spark版本对应的sdk)=>确认。