文章目录

  • 8天Python从入门到精通
  • 第十五章 PySpark案例实战
  • 15.1 前言介绍
  • 15.1.1 Spark是什么
  • 15.1.2 Python On Spark
  • 15.1.3 PySpark
  • 15.1.4 Why PySpark
  • 15.1.5 衔接大数据方向
  • 15.1.6 总结


第十五章 PySpark案例实战

15.1 前言介绍
15.1.1 Spark是什么

定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎

python on spark编程题 spark编程基础python版课后答案_scala

简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据。

python on spark编程题 spark编程基础python版课后答案_spark_02

15.1.2 Python On Spark

Spark作为全球顶级的分布式计算框架,支持众多的编程语言进行开发。

而Python语言,则是Spark重点支持的方向。

python on spark编程题 spark编程基础python版课后答案_Python_03

python on spark编程题 spark编程基础python版课后答案_python on spark编程题_04

15.1.3 PySpark

Spark对Python语言的支持,重点体现在,Python第三方库:PySpark之上。

PySpark是由Spark官方开发的Python语言第三方库。

Python开发者可以使用pip程序快速的安装PySpark并像其它三方库那样直接使用。

python on spark编程题 spark编程基础python版课后答案_python_05

为什么要学习PySpark技术呢?

15.1.4 Why PySpark

Python应用场景和就业方向是十分丰富的,其中,最为亮点的方向为:

大数据开发 和 人工智能

python on spark编程题 spark编程基础python版课后答案_python_06

python on spark编程题 spark编程基础python版课后答案_spark_07

大数据是Python的高薪就业方向,Spark(PySpark)技术是大数据的核心技术栈

15.1.5 衔接大数据方向

只会Python就学大数据,能学会吗?

课程中,不会涉及到分布式等大数据相关理论,仅使用PySpark作为普通的Python第三方库进行使用。

会Python,就能学会。

python on spark编程题 spark编程基础python版课后答案_spark_08

慢慢来

15.1.6 总结
  1. 什么是Spark、什么是PySpark

Spark是Apache基金会旗下的顶级开源项目,用于对海量数据进行大规模分布式计算。

PySpark是Spark的Python实现,是Spark为Python开发者提供的编程入口,用于以Python代码完成Spark任务的开发

PySpark不仅可以作为Python第三方库使用,也可以将程序提交的Spark集群环境中,调度大规模集群进行执行。

  1. 为什么要学习PySpark?
    大数据开发是Python众多就业方向中的明星赛道,薪资高岗位多,Spark(PySpark)又是大数据开发中的核心技术
  2. 如何衔接大数据开发方向?

以Python第三方库的视角学习使用PySpark,不涉及专业大数据知识,所以完全可以学会
想要深入大数据开发领域:

python on spark编程题 spark编程基础python版课后答案_scala_09

冲了,技多不压身。