使用Spark SQL,除了使用之前介绍的方法,实际上还可以使用SQLContext或者HiveContext通过编程的方式实现。前者支持SQL语法解析器(SQL-92语法),后者支持SQL语法解析器和HiveSQL语法解析器,默认为HiveSQL语法解析器,用户可以通过配置切换成SQL语法解析器来运行HiveQL不支持的语法,如:select 1。实际上HiveContext是SQLContex
转载 2023-07-12 19:17:42
105阅读
# Python Parquet 文件解析 Apache Parquet 是一种开源列式存储文件格式,特别适合于数据分析和大数据处理。利用 Python 解析 Parquet 文件不仅能够提升分析效率,还能够更好地利用存储空间。接下来,我们将探讨如何使用 Python 解析 Parquet 文件,并提供相关的代码示例与实现逻辑。 ## 前提准备 在解析 Parquet 文件之前,需要确保安装
原创 2024-10-29 04:22:40
393阅读
1.先建 表 drop table sfmk.xzz_0726_srcarea_desarea; create table sfmk.xzz_0726_srcarea_desarea ( srcarea_desarea string ) row format delimited fields terminated by ','; 2.将数据上传至hive 服务器 如:'/user/013/up
转载 2024-06-18 08:06:39
48阅读
前言一、flink 客户端配置hive catalog1. 具体配置2. 重新进入客户端,观察catalog变化3.创建表,观察catalog对表持久化效果总结 前言问题: flink的sql-client上,创建表,只是当前session有用,退出回话,需要重新创建表。多人共享一个表,很麻烦,有什么办法? 解决方法:把建表的DDL操作,持久化到HIVE上,由hive来管理。如何实现呢? 使用h
show functions:查看hive所有的内置函数 desc function collection_set:查看collection_list函数的具体用法
转载 2023-05-27 20:59:45
331阅读
Parquet列式存储Apache Parquet是Hadoop生态系统中的列式存储格式,面向分析型业务,与数据处理框架、数据模型、编程语言无关。● 优势降低存储空间:按列存,能够更好地压缩数据,因为一列的数据一般都是同质的(homogenous)提高IO效率:扫描(遍历/scan)的时候,可以只读其中部分列. 而且由于数据压缩的更好的缘故,IO所需带宽也会减小降低上层应用延迟查询引擎: Hive
目录基础了解Hive使用场景?安装Hive内部介绍启动hive:基础操作Hiverc文件数据类型和文件格式数据定义表操作修改表数据导出Hql查询Join优化模式设计调优开发Hive权限管理Hive运行原理基础了解hive为什么会出现?MapReduce无非就是一套计算模型,但是使用Hadoop的API来实现这种算法时、有许多细节需要用户自己来控制、这要求用户有一定的java代码能力、因此就将Had
转载 2024-04-02 11:36:07
81阅读
Hive是一种基于Hadoop的数据仓库工具,可以对大规模数据进行存储和处理。而JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,常用于表示结构化的数据。在Hive中,可以使用Hive SQL对JSON数据进行解析和查询。 Hive提供了一些内置的函数和操作符,可以帮助我们解析和查询JSON数据。下面我将介绍一些常用的方法。 1. 使用get_json
原创 2024-01-14 03:46:07
357阅读
# Hive 如何解析 map 字段 在 Hive 中,有时候我们会遇到需要解析 map 字段的情况,例如我们有一个包含 map 类型字段的表格,我们需要将其中的 key 和 value 分离出来进行进一步的处理。本文将介绍如何Hive解析 map 字段,并附带一个具体的问题示例。 ## 解析 map 字段 在 Hive 中,可以使用 `explode` 函数来解析 map 字段,该
原创 2024-04-27 06:15:48
325阅读
Hive是一种开源的数据仓库基础设施,它提供了一个类似于SQL的查询语言(HiveQL)来查询和分析大规模数据集。在Hive中,Parquet是一种列式存储格式,它被广泛用于大数据处理场景中的数据存储和查询。本文将介绍如何Hive中查询Parquet格式的数据。 ### 1. 创建Parquet数据表 在Hive中查询Parquet数据之前,首先需要在Hive中创建一个Parquet格式的数
原创 2023-12-15 09:44:35
198阅读
目录一、简介1.1 ORC二、测试环境说明2.1.集群环境2.2 测试数据2.2.1 TPC-H使用1)tpch下载2)解压3)配置4)生成执行命令,生成dbgen2.2.2 建表、sql和数据准备1)建表语句见附件,分别建Textfile、ORC、Parquet表2)导入数据3)查询语句见附件三、Impala查询ORC和Parquet对比四、ORC和Parquet的压缩效率对比五、ORC和Pa
转载 2023-07-20 22:08:55
0阅读
1. 创建parquet table :create table mytable(a int,b int) STORED AS PARQUET; 2. 创建带压缩的parquet table:create table mytable(a int,b int) STORED AS PARQUET TBLPROPERTIES('parquet.compression'='SNAPPY');&
转载 2023-06-16 15:22:16
189阅读
# Hive SQL如何解析JSON数组 在Hive SQL中解析JSON数组可以使用内置函数`json_array`和`json_tuple`,这些函数提供了方便的方法来处理JSON数据。本文将详细介绍如何Hive SQL中解析JSON数组。 ## 1. 理解JSON数组结构 在开始之前,首先需要理解JSON数组的结构。JSON数组是一个有序的、包含多个元素的集合。每个元素可以是字符串、
原创 2023-10-03 10:33:22
716阅读
由于实验的须要,这两天就搭了个Hive,简单记录一下:平台:OS:Ubuntu Kylin 14.04   JAVA:Java 1.8.0_25   HADOOP:Hadoop 2.4.0   HIVEHive 0.14.0  有关Hive的安装这里就不说了,Hive配置好后,直接在安装目录下起动hive(记得先启动Hadoop哈,不然会报错),看着网上的教程简单的试用下; 1 create
# 项目方案:Hive Parquet文件上传 ## 引言 在大数据领域,数据存储和处理是关键的一环。Hive是一个基于Hadoop的数据仓库基础设施,它提供了一个类似于SQL的查询语言,用于在大规模数据集上进行数据分析。而Parquet是一种高效的列式存储格式,可以提高数据的压缩比和查询性能。本项目方案旨在介绍如何使用Hive将文件上传为Parquet格式,并提供了相应的代码示例。 ##
原创 2023-12-20 13:11:25
73阅读
# 项目方案:Hive查询Parquet文件 ## 1. 项目概述 本项目旨在通过Hive查询Parquet文件,实现高效、灵活的数据分析和查询功能。Parquet是一种列式存储格式,具有压缩效率高、查询性能好的特点,适合大规模数据存储和查询。通过Hive作为查询引擎,可以实现对Parquet文件的快速查询和分析。 ## 2. 技术选型 本项目选择使用以下技术: - Hive:用于查询和
原创 2023-12-13 11:47:45
254阅读
**流程图:** ```mermaid flowchart TD A(开始) B(创建外部表) C(创建parquet表) D(将数据导入parquet表) E(查询parquet表) F(结束) A-->B B-->C C-->D D-->E E-->F ``` **步骤及代码:** 1. 创建外部表: ```sql CREATE EXTERNAL TABLE external_tab
原创 2023-10-30 09:57:52
68阅读
一.引用parquet 文件常见于 Spark、Hive、Streamin、MapReduce 等大数据场景,通过列式存储和元数据存储的方式实现了高效的数据存储与检索,下面主要讲 parquet 文件在 spark 场景下的存储,读取与使用中可能遇到的坑。二.Parquet 加载方式1.SparkSession.read.parquetSparkSession 位于 org.a
转载 2023-08-09 13:09:19
344阅读
1 诡异现象在Fayson的测试测试环境下有一张Parquet格式的表,由于业务需要对表的字段名称数据类型进行了修改和新增列等操作,导致使用Hive和Impala查询显示的结果不一致问题。Impala查询表时由于数据类型问题直接抛出异常:WARNINGS: File 'hdfs://nameservice1/user/hive/warehouse/hdfs_metadata.db/d1/f4429
转载 2024-06-12 14:37:59
40阅读
目录一、Hive DDL 操作1.1数据库操作1.2表操作二、Hive DML 操作1.1 数据转载与插入1.2数据更新、删除与合并1.3 数据导入/导出三、Hive Shell 操作1.1Hive 命令行1.2Hive 参数配置方式一、Hive DDL 操作        Hive DDL用于定义Hive&
转载 2024-08-14 21:54:50
45阅读
  • 1
  • 2
  • 3
  • 4
  • 5