spark 查询hive 没数据 spark读取不到hive表

转载

mob64ca1402a190 2024-05-17 10:20:27

文章标签 spark 查询hive 没数据大数据 hive spark sql 文章分类 Spark 大数据

1.使用spark连接hive时，数据目录总是spark的目录，而不是hive的元数据目录

官网说的是需要把hive-site.xml还有hadoop和hdfs的核心配置拿到spark的conf下，经过测试，其实只需要把hive-site复制过去就可以。但是spark的conf下已经有了一个hive-site，经过比对，这两个hive-site的内容是不一样的，所以如果在这个时候运行sparksql的话，加载的是spark的warehouse。这个可以理解成spark的内置hive，必须要把这个内置的hive文件替换掉，才能使用sparksql连接hive，并且有几个细节的配置需要改一下

metastore.catalog.default=hive
 
hive中  hive.strict.managed.tables=false
 
hive.load.data.owner=spark(具体执行用户)
 
spark.sql.warehouse.dir= /warehouse/tablespace/managed/hive(hive元数据目录)

然后进去sparkbin下，启动spark-shell脚本：

在sql里面写执行的sql就可以执行相关对hive的操作了

scala> sql("select * from test3_hive").show
 
+---+----+
 
| id|name|
 
+---+----+
 
|  1| aaa|
 
+---+----+

2.同一条建表语句，使用hive客户端创建，hdfs上的文件目录是这样的：表名/文件夹分区名/数据

使用spark客户端创建表，hdfs文件目录是这样：表名/数据

问题是，用spark读取hive创建的表报错Not a file，且spark没法插数据到hive创建的表，插入时报错Cannot change stats state for a transactional table without providing the transactional write state for verification (new write ID -1, valid write IDs null; current state {"BASIC_STATS":"true","COLUMN_STATS":{"id":"true","name":"true"}}; new state null 。

但是用spark创建表时，spark和hive都可以对表进行插入和查询

问题解决：

ambari在最开始搭建完hive以后，配置项和开源的hive搭建完是不一样的。

ambari-hive搭建完以后，修改了很多的配置，开启了acid，但是acid不支持textfile格式，好像只有orc格式才支持acid，但是sparksql读取不了orc格式，所以导致了这一系列问题。

把hive的关于acid的配置改了就可以了：

hive.strict.managed.tables=false
 
hive.create.as.insert.only=false
 
metastore.create.as.acid=false
 
没改之前表结构是这样的：
改完以后是这样的：（可以被spark正常读取了）
3.hive报错Error: java.io.IOException: java.lang.IllegalArgumentException: bucketId out of range: -1

解决办法：

出现这个问题的原因是我创建hive表的时候开启了事务，然后别的组件比如spark对这个表进行了插入数据操作，导致了这个表在hdfs目录下的结构是这样的，

hive读取数据的时候，会从表下面的delta文件夹下读取数据，但是spark不支持acid操作，所以插数据以后格式是文件而没有delta文件夹，所以导致用hive查询这个表的时候报错，用spark查询这个表的时候会报错

Unable to alter table. Cannot change stats state for a transactional table without providing the transactional 
write state for verification (new write ID 1, valid write IDs null; current state {"BASIC_STATS":"true","COLUMN_STATS":
{"id":"true","name":"true"}}; new state null;

但是报错之后却可以查出之前spark插入的数据来

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。