python连接spark集群 pyspark 远程连接spark集群

转载

mob6454cc70eddf 2023-11-15 16:00:38

文章标签 python连接spark集群大数据 spark hadoop hive 文章分类 Python 后端开发

摘要：本地Spark连接远程集群Hive(Scala/Python)

1 背景

很多时候，我们在编写好 Spark 应用程序之后，想要读取 Hive 表测试一下，但又不想操作 (打jar包——>上传集群——>spark-submit) 这些步骤时，那我们就可以在本地直连 Hive，直接运行你的 Spark 应用程序中的 main 函数即可。代码如下(版本为Spark2.0+)

2 Scala版本

代码如下：

import org.apache.spark.sql.SparkSession


object SparkDemo {


  val spark = SparkSession
      .builder()
      .appName("Spark to Hive")
      .master("local[4]")
      .config("hive.metastore.uris", "thrift://bigdata01:9083,thrift://bigdata02:9083")
      .enableHiveSupport()
      .getOrCreate()
  
  val df = spark.read.table("db.table")
  df.show(false)
  spark.close()
}

代码中在创建 SparkSession 实例时的配置项 “hive.metastore.uris” 的值以个人情况而定，具体配置对应的是你集群中Hive安装目录下的这个文件 …/conf/hive-site.xml 中的 hive.metastore.uris，这个配置表示Hive的Metastore Server所在的节点。

注意：一般来讲，bigdata01，bigdata02都是集群中节点的别名，并不是具体的IP地址，所以你还需要把集群某个节点下文件 /etc/hosts 中的配置拷贝到你Windows电脑的这个 C:\Windows\System32\drivers\etc\hosts 文件中，（MAC 是 /etc/hosts）这样才能在本地访问集群Hive的元数据服务器节点。具体配置就长下面这个样子：

10.1.11.10           bigdata01
10.1.11.11           bigdata02
10.1.11.12           bigdata03

画外音：笔者推荐使用 SwitchHosts 工具来管理 hosts 文件。

python连接spark集群 pyspark 远程连接spark集群_spark

3 pyspark版本

代码如下：

import os
from pyspark.sql import SparkSession




os.environ["SPARK_HOME"] = "F:\App\spark-2.3.1-bin-hadoop2.6"




if __name__ == '__main__':
    spark = SparkSession\
    .builder \
    .appName("Spark to Hive") \
    .master("local[4]") \
    .config("hive.metastore.uris", "thrift://bigdata01:9083,thrift://bigdata02:9083") \
    .enableHiveSupport()\
    .getOrCreate()
    df = spark.read.table("db.table")
    df.show(truncate=False)
    spark.stop()

pyspark 版本跟 Scala 不同的地方在于，pyspark 运行时会依赖 Spark 的一些文件，因此需要设置环境变量 SPARK_HOME，我们可以到 Spark官网下载与你所使用Spark相对应的版本，文件名称类似spark-2.3.3-bin-hadoop2.6.tgz，下载之后，解压到你电脑指定目录下即可，最后将解压后的根目录作为SPARK_HOME。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。