文章目录
- 8天Python从入门到精通
- 第十五章 PySpark案例实战
- 15.1 前言介绍
- 15.1.1 Spark是什么
- 15.1.2 Python On Spark
- 15.1.3 PySpark
- 15.1.4 Why PySpark
- 15.1.5 衔接大数据方向
- 15.1.6 总结
第十五章 PySpark案例实战
15.1 前言介绍
15.1.1 Spark是什么
定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎。
简单来说,Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算TB、PB乃至EB级别的海量数据。
15.1.2 Python On Spark
Spark作为全球顶级的分布式计算框架,支持众多的编程语言进行开发。
而Python语言,则是Spark重点支持的方向。
15.1.3 PySpark
Spark对Python语言的支持,重点体现在,Python第三方库:PySpark之上。
PySpark是由Spark官方开发的Python语言第三方库。
Python开发者可以使用pip程序快速的安装PySpark并像其它三方库那样直接使用。
为什么要学习PySpark技术呢?
15.1.4 Why PySpark
Python应用场景和就业方向是十分丰富的,其中,最为亮点的方向为:
大数据开发 和 人工智能
大数据是Python的高薪就业方向,Spark(PySpark)技术是大数据的核心技术栈
15.1.5 衔接大数据方向
只会Python就学大数据,能学会吗?
课程中,不会涉及到分布式等大数据相关理论,仅使用PySpark作为普通的Python第三方库进行使用。
会Python,就能学会。
慢慢来
15.1.6 总结
- 什么是Spark、什么是PySpark
Spark是Apache基金会旗下的顶级开源项目,用于对海量数据进行大规模分布式计算。
PySpark是Spark的Python实现,是Spark为Python开发者提供的编程入口,用于以Python代码完成Spark任务的开发
PySpark不仅可以作为Python第三方库使用,也可以将程序提交的Spark集群环境中,调度大规模集群进行执行。
- 为什么要学习PySpark?
大数据开发是Python众多就业方向中的明星赛道,薪资高岗位多,Spark(PySpark)又是大数据开发中的核心技术 - 如何衔接大数据开发方向?
以Python第三方库的视角学习使用PySpark,不涉及专业大数据知识,所以完全可以学会
想要深入大数据开发领域:
冲了,技多不压身。