前 言


Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台,它立足于内存计算,从多迭代批量处理出发,兼顾数据仓库、流处理和图计算等多种计算范式,是大数据系统领域的全栈计算平台。Spark当下已成为Apache基金会的顶级开源项目,拥有庞大的社区支持,技术也逐渐走向成熟。

为什么要写这本书

本书特色

本书是国内首本系统讲解Spark编程实战的书籍,涵盖Spark技术的方方面面。
1)对Spark的架构、运行机制、系统环境搭建、测试和调优进行深入讲解,以期让读者知其所以然。讲述Spark最核心的技术内容,以激发读者的联想,进而衍化至繁。
2)实战部分不但给出编程示例,还给出可拓展的应用场景。
3)剖析BDAS生态系统的主要组件的原理和应用,让读者充分了解Spark生态系统。
本书的理论和实战安排得当,突破传统讲解方式,使读者读而不厌。
本书中一些讲解实操部署和示例的章节,比较适合作为运维和开发人员工作时手边的书;运行机制深入分析方面的章节,比较适合架构师和Spark研究人员,可帮他们拓展解决问题的思路。

识开始学起。
目 录