spark python 环境搭建 spark环境搭建及配置

转载

mob6454cc659b12 2023-09-06 10:12:42

文章标签 spark python 环境搭建 spark windows debug spark scala ide 文章分类 Spark 大数据

1、官网下载安装包或者编译包：

https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz

2、解压到安装目录-自定义目录，配置环境变量

3、安装java和scala；

4、运行安装目录下的spark-shell：这个入口是scala；

5、安装idea；

6、配置idea开发环境：
下面介绍本地spark开发的示例，虽然spark是处理大数据的，常常在大型计算机集群上运行，但本地spark方便调试，可以帮助我们学习相关的语法。
打开idea, file=>new=>project=>选择scala工程，选择IDEA=>输入工程名(如test)，路径，JDK选刚刚安装的1.8，scala SDK选刚刚安装的scala-sdk-2.11.8(或者点右边的create，选择你想要的版本下载)=>finish

再src上右键=>new=>scala class=>选下拉框scala object，输入类名。

输入测试代码，这是一段分组排序的代码：

import org.apache.spark.{SparkContext,SparkConf}
object Sort {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("GroupSort")
    val sc = new SparkContext(conf)
    val test =List(("key1","123",12,2,0.13),("key1","123",12,3,0.18),("key2","234",12,1,0.09),("key1","345",12,8,0.75),("key2","456",12,5,0.45))
    val rdd = sc.parallelize(test)
 
    val rdd1= rdd.map(l => (l._1, (l._2, l._3, l._4, l._5))).groupByKey()
      .flatMap(line => {
        val topItem = line._2.toArray.sortBy(_._4)(Ordering[Double].reverse)
          topItem.map(f=>(line._1,f._1,f._4)).toList
      })
    rdd1.foreach(println)
 
    sc.stop()
  }
}

设置本地模式：run=>edit configrations=>Application=>选择我们应用，VM options上添加-Dspark.master=local, 此处也可以定义输入输出的参数

包含spark和scala sdk: File=>Project Structure=>open module settings=> project settings=> libraries=>"+"=>java=>选择spark安装目录下的jars文件夹=>确认。同样地，“+”=>scala sdk =>选择需要的scala sdk(与spark版本对应的sdk)=>确认。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。