参考文献:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/index.html

大数据工程师们开始探索如何使用类 SQL 的方式来操作和分析大数据,通过大量的努力,目前业界已经出现很多 SQL on Hadoop 的方案,如 Hive, Impala 等。Spark SQL 就是其中的一个,实际上 Spark SQL 并不是一开始就存在于 Spark 生态系统里的,它的前身是 Shark

Spark SQL 是 Spark 生态系统里用于处理结构化大数据的模块
Spark DataFrame 以 RDD 为基础,但是带有 Schema 信息,它类似于传统数据库中的二维表格
一旦将 DataFrame 注册成临时表,我们就可以使用类 SQL 的方式操作这些数据
当前支持的数据源有:Json、文本文件、RDD、关系数据库、Hive、Parquet