image.png

在本地构建数据密集型应用程序,并使用Python和Spark 2.0的强大功能进行大规模部署。

Apache Spark是一个高效集群计算的开源框架,具有强大的数据并行和容错接口。本书将向您展示如何利用Python的强大功能并将其用于Spark生态系统。首先,您将深入了解Spark 2.0体系结构以及如何为Spark设置Python环境。

您将熟悉PySpark中可用的模块。您将学习如何使用RDD和DataFrame抽象数据并了解PySpark的流功能。此外,您将全面了解使用ML和MLlib的PySpark的机器学习功能,使用GraphFrames的图形处理以及使用Blaze的多语言持久性。最后,您将学习如何使用spark-submit命令将应用程序部署到云。

在本书的最后,您将对Spark Python API及其如何用于构建数据密集型应用程序有一个深入的了解。

本书采用了非常全面的循序渐进的方法,因此您可以了解Spark生态系统如何与Python一起使用来开发高效,可扩展的解决方案。每一章都是独立的,以非常易于理解的方式编写,重点关注每个概念的方法和原理。

关于本书

了解为何以及如何有效地使用Python处理数据并在Apache Spark 2.0中构建机器学习模型

开发和部署高效,可扩展的实时Spark解决方案

通过本跳转入门指南,将您对Spark的使用理解提升到新的水平

参考资料

你会学到什么

了解Apache Spark和Spark 2.0架构

使用Spark SQL构建Spark DataFrames并与之交互

了解如何分别使用GraphFrames和TensorFrame解决图形和深度学习问题

读取,转换和理解数据并使用它来训练机器学习模型

使用MLlib和ML构建机器学习模型

了解如何使用spark-submit以编程方式提交应用程序

将本地构建的应用程序部署到群集

面向读者

如果您是想要了解Apache Spark 2.0生态系统的Python开发人员,那么本书适合您。对Python的深刻理解有望在本书中发挥最大作用。熟悉Spark会很有用,但不是强制性的