Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作 - shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等)-java4、HDFS-java操作类HDFSUtil及junit测试(HDFS的常见操作以及HA环境的配置)5、HDFS API的RESTful风格
原创
精选
2023-05-15 15:42:50
386阅读
点赞
本文介绍使用MapReduce读写文件,包括:读写SequenceFile、MapFile、ORCFile和ParquetFile文件。本文前提:hadoop环境可正常使用。
原创
2023-05-15 17:05:15
291阅读
点赞
Flink之FileSink将数据写入parquet文件在使用FileSink将数据写入列式存储文件中时必须使用forBulkFormat,列式存储文件如ORCFile、ParquetFile,这里就以ParquetFile为例结合代码进行说明.在Flink1.15.3中是通过构造ParquetWriterFactory然后调用forBulkFormat方法将构造好的ParquetWriterFa
转载
2024-07-01 18:21:03
65阅读
1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等)
2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。
原创
2021-07-07 11:39:02
191阅读
选择合适的文件存储格式Apache Hive支持 Apache Hadoop 中使用的几种熟悉的文件格式,比如 TextFile、SequenceFile、RCFile、Avro、ORC、ParquetFile等。 存储格式一般需要根据业务进行选择,在我们的实操中,绝大多数表都采用TextFile与 ...
转载
2021-07-22 19:16:00
243阅读
2评论
Hive官网(HQL)语法手册(英文版): https://cwiki.apache.org/confluence/display/Hive/LanguageManual一、Hive的数据存储 1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等) 2、只需要在创
转载
2023-07-20 19:00:37
77阅读
Hive官网(HQL)语法手册(英文版):https://cwiki.apache.org/confluence/display/Hive/LanguageManual Hive的数据存储 1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等) 2、只需要在创建表的时候告诉&
转载
2024-01-22 10:29:15
111阅读
1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等)2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。3、Hive 中包含以下数据模型:DB、Table,External Table,Partition,Bucket。db:在hdfs中表现为${...
原创
2022-03-24 10:03:55
361阅读
文章目录1. Hive 概述2.1. Hive 优缺点2.2. Hive 基础架构2. HQL 转化为 MR 过程3. Hive和RDBMS有什么异同4. Hive 元数据保存方式5. 内部表 和 外部表6. Hive 如何进行权限控制7. 文件存储格式7.1. 列式存储和行式存储7.2 TextFile,SequenceFile,ORCFile 及 ParquetFile 存储格式8. Hiv
转载
2023-07-12 09:25:14
7阅读
Hive表结构设计原则Hive 中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持 Text, SequenceFile,ParquetFile,RCFILE 等),SequenceFile 是 hadoop 中的一 种文件格式:文件内容是以序列化的 kv 对象来组织的。Hive 中包含以下数据模型:DB、Table,External Table,Partition,Bucket。
转载
2023-06-07 10:34:52
0阅读
一、概述理解下hive整体流程: 二、Hive的数据存储1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等) 2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。 3、Hive 中包含以下数据模型:DB、Table,External Table,Par
转载
2023-07-14 11:35:11
99阅读
最近用spark处理过一阵子日志,都是一些零零散散的需求,作为一个程序员,饱受查询之苦。在这个使用过程中,也渐渐对spark dataframe的使用摸索出了一些门道。之所以会频繁使用dataframe,源于我们的日志初步处理后保存为parquet格式,因而直接使用dataframe的场景比较多。读写val parquetFile = sqlContext.read.parquet("hdfs:/
转载
2023-08-08 20:41:39
65阅读
数据库是用来保存数据的,废话,那么数据是怎么保存起来的,肯定每种数据库都有自己的存储格式。商业的数据库外人都不知道里面是怎么保存的。我们知道Mysql就有好几种不同的引擎,如ISAM、MyISAM、HEAP、InnoDB和Berkley(BDB)等等。 Hive 支持多种格式的文件,包括文本,SeqFile,RCFile,AvroFile,ORCFile ParquetFile等,还可以自定义文件
转载
2023-07-20 22:37:07
67阅读
和写MapReduce程序一样,在写spark时经常需要处理多份文件且每份文件的数据格式和要处理的方式不尽相同,这个时候就需要一份一份数据处理,然后在进行一些聚合操作。这样做不仅代码写的比较臃肿可读性差,甚至有时会忘记聚合某些文件。这里我们就需要根据不同的文件名进行相应的处理。spark默认的读文件方法textFile和读parquent文件方法parquetFile都不包含文件分片信息,只包含文
转载
2023-09-22 23:08:14
147阅读