036 SQLContext和HiveContext

转载

mb5fe18f0f5c8c6 2017-04-25 15:43:00

文章标签 sql spark hive 序列化表数据 文章分类 代码人生

1.SqlContext　

　SQLContext依赖SparkContext
　　　　功能：支持SparkSQL操作(不依赖Hive)
　　　　SQLContext在一个JVM中默认允许存在多个

　　　　只有SQLContext支持序列化与反序列化。

2.HiveContext

　　继承了SQLContext
　　HiveContext是SparkSQL读取Hive表数据的入口

　　继承自SQLContext，重写了一些方法。

　　 036 SQLContext和HiveContext_序列化

　　发现sqlContext的类型是HiveContext，所以以前的示例可以直接进行操作hive。

3.SparkSQL

　　SparkCore
　　　　入口：SparkContext
　　　　核心抽象：RDD
　　SparkSQL
　　　　入口：SQLContext
　　　　核心抽象：DataFrame

4.SparkSQL底层优化

　　两张表进行join: 对于表数据小于参数spark.sql.autoBroadcastJoinThreshold(10485760)设置值的时候，将数据广播变量

5.补充

　　rdd.foreachPartition(iter => {
　　　　// 如果在这里创建一个SQLContext的话，相当于每个分区都创建一个SQLContext===>可能导致OOM异常(Perm Space)
　　　　// 解决方案：直接在driver中创建一个SQLContext对象，然后直接在各个分区中使用 --> SQLContext支持序列化
　　})

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。