HIve 建表指定压缩格式 hive存储格式和压缩格式

转载

mob64ca1418736f 2023-09-19 07:21:57

文章标签 HIve 建表指定压缩格式 hive 字段列式存储 文章分类 Hive 大数据

压缩：

各种压缩性能比较

HIve 建表指定压缩格式 hive存储格式和压缩格式_列式存储

目前，在数仓项目中hive表一般使用snappy格式压缩数据较多。压缩和解压缩速度都比较快。

文件存储格式：
目前hive的存储格式主要有4中;TEXTFILE SEQUENCEFILE ORCFILE 和PARQUET 4中存储格式。在数仓中，hive表一般使用的是ORCFILE。
如果数仓中设置的有缓冲层，缓冲层一般会使用TEXTFILE，因为TEXTFILE格式的hive表，在导入数据的时候可以直接使用load data 的方式加载text数据，或者通过hdfs将text格式的数据移动到表元数据目录下，接着再通过insert into table select * 的方式，将数据加载到ORC格式下的ODS层hive表中(ORC格式hive表无法通过load data加载数据)。
ORCFILE 和PARQUET是基于列式存储格式，对于数仓这种OLAP分析来说，往往都是一次写入, 多次读取, 尤其是经常取少部分列以及可能会对他进行聚合操作的情况, 比较适合使用列式存储

行式存储和列式存储

HIve 建表指定压缩格式 hive存储格式和压缩格式_HIve 建表指定压缩格式_02