想要使用PySpark库完成数据处理,首先需要构建一个执行环境上下文对象,PySpark的执行环境上下文是SparkContext。SparkContext是Spark应用程序的主要入口,其代表与Spark集群的连接,能够用来在集群上创建RDD,创建共享变量,访问Spark服务。作业的提交,应用的注册,任务的分发都是在SparkContext中进行的。每个JVM里只能存在一个处于激活状态的SparkContext,在创建新的SparkContext之前,需要先关闭之前创建的SparkContext。

在spark-shell、pyspark、databricks等这种交互式的环境中,已经默认帮我们创建好了SparkContext,直接用sc可以得到SparkContext。对于我们开发的需要提交到集群运行的代码,则需要自己创建SparkContext。