创建数据库表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
转载 2024-03-05 05:52:15
54阅读
文章目录前言一、HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.2.1 优点1.3 HDFS组成架构1.4 HDFS文件块大小二、 HDFS的Shell操作2.1 基本语法2.2 命令大全2.3 常用命令实操2.3.1 准备工作2.3.2 上传2.3.3 下载2.3.4 HDFS直接操作三、HDFS客户端操作3.1 HDFS客户端环境准备3.2 HDFS的API操作3.2.1
转载 2023-09-22 12:49:12
30阅读
解析PartitionMap的结果,会通过partition分发到Reducer上,Reducer做完Reduce操作后,通过OutputFormat,进行输出,下面我们就来分析参与这个过程的类。Mapper的结果,可能送到Combiner做合并,Combiner在系统中并没有自己的基类,而是用Reducer作为Combiner的基类,他们对外的功能是一样的,只是使用的位置和使用时的上下文不太一样
转载 2023-07-13 16:55:59
70阅读
Hadoop主要有两个层次,即:加工/计算层(MapReduce),以及存储层(Hadoop分布式文件系统,即HDFS)。Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。HDFS拥有超大型的数据量,并提供更轻松地访问。为了存储这些庞大的数据,这些文件都存储在多台机器。这些文件都存储以冗余的方式来拯救系统免受可能的
转载 2023-07-12 03:39:54
86阅读
本文记录YARN、Spark、Hive各服务配置使用kerberos的过程。 我的环境:三台服务器,分别命名为zelda1、zelda2、zelda3ubuntu 14.04hadoop 2.7.2spark 2.0/1.6.1 YARN认证 目的是将YARN接入到kerberos集群里,使得:RM和NM之间能互相认证,避免混进去恶意服务;其他提交到YARN上的JOB必须能够通过kerberos
转载 2023-10-20 17:08:14
69阅读
Managed and External Tables(内部和外部)Hive上有两种类型的,一种是Managed Table(默认的),另一种是External Table(加上EXTERNAL关键字)。它俩的主要区别在于:当我们drop时,Managed Table会同时删去data(存储在HDFS上)和meta data(存储在MySQL),而External Table只会删meta
# 如何在Hadoop中实现高变宽 在大数据处理的过程中,我们经常需要进行数据的转换,特别是将高(即行状数据)转换为宽(即列状数据)。这个过程在数据分析和报告中是非常常见的,通常称为“数据透视”或“数据宽化”。本文将逐步引导你实现这一过程,包括必要的代码示例和详细的注释。 ## 处理流程 首先,让我们来看一下整个流程的步骤,下面是一个简单的步骤。 | 步骤 | 描述 | |---
原创 7月前
54阅读
# Hadoop 创建科普文章 在大数据时代,Hadoop作为一种开源的分布式计算框架,越来越受到企业的青睐。Hadoop管理的大数据通常存储在Hadoop分布式文件系统(HDFS)中,而为了更好地管理和查询这些数据,我们常常需要在Hadoop生态系统中使用Hive来创建。本文将深入探讨如何在Hadoop中创建,并提供相应的代码示例。 ## 什么是 Hive? Apache Hive
原创 8月前
47阅读
# Hadoop 虚拟:解密大数据处理的利器 ## 引言 在大数据处理和分析的世界中,Hadoop 已经成为一种不可或缺的工具。随着大数据技术的不断发展,虚拟的概念应运而生,成为数据湖中的一颗明珠。本文将详细介绍 Hadoop 虚拟的概念、工作原理以及如何使用其进行数据操作,并通过代码示例帮助读者更好地理解这个概念。 --- ## 什么是 Hadoop 虚拟? 在理解 Hadoo
原创 7月前
81阅读
# 如何在 Hadoop 中创建临时 在大数据处理的世界中,Hadoop 是一个常用的框架,它能够简化大量数据的存储和处理。临时是一种非常有用的工具,可以帮助我们在查询过程中保持数据的临时状态。今天,我们将一起了解如何在 Hadoop 中创建临时。 ## 流程步骤 下面是实现临时创建的流程步骤: | 步骤 | 描述 | |-
原创 9月前
53阅读
# 实现 Hadoop 兼容的指南 Hadoop 兼容是一种能够在大数据环境中高效存储和处理数据的结构。本文将带领你逐步实现一个 Hadoop 兼容,帮助你理解其基本的构建流程和实现步骤。 ## 步骤流程 下面是实现 Hadoop 兼容的过程,展示了每一步的主要任务及代码示例: | 步骤 | 描述 | |------|-----------
原创 8月前
64阅读
# 深入了解Hadoop Hadoop是一个广泛应用于大数据处理的开源框架,在其生态系统中,Hadoop的HDFS(Hadoop Distributed File System)和MapReduce是两个核心组件。随着数据的不断增长,如何有效地存储和管理数据成为一个至关重要的问题。本文将介绍如何在Hadoop中建立,以及相关的代码示例、流程图和关系图。 ## Hadoop Ecosyst
原创 2024-10-26 05:19:33
86阅读
序列化分析:序列化和反序列化就是结构化对象和字节流之间的转换,主要用在内部进程的通讯和持久化存储方面。 hadoop在节点间的内部通讯使用的是RPC,RPC协议把消息翻译成二进制字节流发送到远程节点,远程节点再通过反序列化把二进制流转成原始的信息。RPC的序列化需要实现以下几点: 1.压缩,可以起到压缩的效果,占用的宽带资源要小 2.快速,内部进程为分布式系统构建了高速链路,因此在序列化和反
为了使Hadoop集群保持健康的状态,集群需要进行日常的维护,主要从基础运维,集群扩容和异常处理三个方面。1、基础运维1.1 启动 / 停止HadoopHadoop_HOME/bin下执行./start-all.sh或者./stop-all.sh命令。(官方不推荐使用这两个命令)1.2 启动 / 停止 HDFS在Hadoop_HOME/bin下执行./start-dfs.sh或者./stop-d
七、分区/分桶 文章目录七、分区/分桶1、分区1.1 分区基本操作1.2 分区二级分区1.3 动态分区调整2、分桶 1、分区概念:分区实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效
转载 2023-08-20 20:04:33
141阅读
Hive的基本简单使用一、创建1、进入Hive环境2、Create DataBase3、show DataBases4、Delete a DateBase5、Create a Table6、Show Tables7、导入数据二、分区PARTITIONED1、创建2、查看表结构3、导入数据4、Hive数据存放在HDFS的哪个位置?三、分桶1、概念:2、创建3、导入数据到person1四、H
转载 2023-09-01 08:47:48
370阅读
4.1 概述4.1.1 从BigTable说起BigTable是一个分布式存储系统 ,起初用于解决典型的互联网搜索问题(Google大规模搜索问题)利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据使用谷歌分布式文件系统GFS作为底层数据存储采用Chubby提供协同服务管理可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、 高性能和高可用性等特点谷歌的许多项目都存储在B
1.定制Writable类型Hadoop中有一套Writable实现,例如:IntWritable、Text等,但是,有时候可能并不能满足自己的需求,这个时候,就需要自己定制Writable类型。定制分以下几步:需要实现WritableComparable接口,因为Writable常常作为健值对出现,而在MapReduce中,中间有个排序很重要,因此,Hadoop中就让Writable实现了Wri
转载 2023-07-16 22:46:23
44阅读
文章目录前言1.Impala-Shell2.Impala SQL语法3.导入数据以及JDBC方式查询Impala总结 前言Impala的核心开发语言是SQL语句,Impala有shell命令行窗口、JDBC等方式来接收SQL语句执行,对于复杂类型分析可以使用C++或者Java来编写UDF函数。Impala的SQL语法高度集成了Apache Hive的HQL语法,Impala支持Hive支持的数据
内部&外部未被external修饰的是内部(managed table),被external修饰的为外部(external table); 区别: 内部数据由Hive自身管理,外部数据由HDFS管理; 内部数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部数据的存储位置由自己制定; 删除内部会直
  • 1
  • 2
  • 3
  • 4
  • 5