问题描述
集群默认计算引擎是 hive ,这两天自己试了一下 hive on spark 发现一个奇怪现象,首先 hive 引擎中文做简单查询或者聚合查询都正常,使用 spark 引擎简单查一个表的中文字段也没事,但是只要对 中文字段进行 group by 操作就乱码了
问题解决
在开启 spark session 后 加两个设置就好了
set spark.executor.extraJavaOptions='-Dfile.encoding=utf-8';
set spark.driver.extraJavaOptions='-Dfile.encoding=utf-8' ;
再次测试 spark session 内执行有关中文的任何查询不再出现乱码问题。