一   数据的导入和导出1  数据的导入方式------hive 交互窗口上1.1 load本地数据load data local inpath "/root/hive/.txt或者 .log" into table tb_name; load data local inpath "/root/hive/.txt" overwrite into tabl
转载 2023-12-01 14:00:20
101阅读
Hive优化1.1 hive的随机抓取策略理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是需要进行mapreduce的过程,默认是more)Fetch抓取的模式 可以通过 set
转载 2024-01-16 01:22:03
39阅读
## Hive如何指定文件个数 在Hive中,我们可以通过设置`hive.exec.reducers.max`属性来指定最大的Reduce任务数量,从而间接控制文件的个数。默认情况下,Hive会根据数据量自动决定Reduce任务的数量,但我们也可以手动指定。 ### 1. 设置hive.exec.reducers.max属性 我们可以通过以下方式在Hive中设置`hive.exec.
原创 2024-03-26 05:46:52
303阅读
# 如何实现hive文件大小控制 ## 1. 整体流程 ```mermaid journey title 整体流程 section 开始 开始 --> 创建 --> 设定文件大小控制 --> 完成 ``` ## 2. 具体步骤 ```mermaid flowchart TD A[创建] --> B[设定文件大小控制] B -->
原创 2024-06-22 06:39:25
95阅读
引言:把基于mapreduce的离线hiveSQL任务迁移到sparkSQL,不但能大幅缩短任务运行时间,还能节省不少计算资源。最近我们也把组内2000左右的hivesql任务迁移到了sparkSQL,这里做个简单的记录和分享,本文偏重于具体条件下的方案选择。迁移背景SQL任务运行慢Hive SQL处理任务虽然较为稳定,但是其时效性已经达瓶颈,无法再进一步提升,同一个SQL,Hive比Spark执
HDFS概述HDFS(Hadoop Distributed File System)是Apache Hadoop 项目的一个子项目。Hadoop非常实用存储大型数据,TB和PB级别的,其就是使用的HDFS作为存储系统。HDFS是分布式文件系统使用多台计算机存储文件,并提供统一的访问接口,就像访问本地普通文件系统一样。分布式文件系统解决的就是大数据存储问题。他们是横跨在多台计算机上的存储系统。分布式
转载 2024-02-23 18:00:17
47阅读
2、数据库: OLTP //online transaction process ,在线事务处理3、drop databases  if exists  mybase //删除数据库4、show tables //显示5、create  database  mybase //mysql 创建库6、create table test(id int ,name
最近有一个需求,统计每天的新老用户,日活,周活,月活。 我们每天的增量数据会加入到hive历史数据中,包含用户访问网站的一些信息,字段有很多,包括用户唯一标识guid。 当然了日活,周活,月活就是一个count(distinct(guid))语句,非常常用的sql。但是这里的问题是: A:每天的新老用户应该怎么统计呢? B:这还不简单,判断用户guid是否存在与历史库guid中嘛?
转载 2024-06-06 01:19:15
16阅读
# NiFi 数据 Hive 科普指南 在现代数据处理中,Apache NiFi 的可视化界面和强大的数据流动能力,使它成为许多企业选择用来处理和迁移数据的工具。而将数据落地到 Hive 是一个常见的使用场景,因为它能够有效地存储和查询大数据。本文将介绍如何使用 NiFi 将数据写入 Hive,并附带代码示例和图示说明。 ## 1. NiFi 简介 Apache NiFi 是一个强大的数据
原创 2024-10-13 04:43:00
161阅读
# 如何实现Hive文件大小256MB ## 背景介绍 你好,作为一名经验丰富的开发者,我很高兴能够帮助你学习如何实现“hive 文件大小256MB”。在本篇文章中,我将向你介绍整个实现过程,并为你提供详细的步骤和代码示例。 ## 实现流程 首先,让我们来看一下整个实现过程的流程图: ```mermaid classDiagram class Hive { +
原创 2024-07-08 03:23:48
23阅读
Hive 是大数据领域最早出现的 SQL 引擎,发展至今有着丰富的功能和广泛的用户基础。之后出现的 SQL 引擎,如 Spark SQL、Impala 等,都在一定程度上提供了与 Hive 集成的功能,从而方便用户使用现有的数据仓库、进行作业迁移等。Flink从1.9开始支持集成Hive,不过1.9版本为beta版,不推荐在生产环境中使用。在最新版Flink1.10版本,标志着对 Blink的整合
转载 2023-07-28 15:56:26
79阅读
# Flink Hive 大字段实现指南 ## 1. 概述 在本文中,我将指导你如何使用 Flink 将大字段数据写入 Hive。我们将按照以下步骤进行操作: 1. 创建一个 Flink 应用程序。 2. 从数据源读取大字段数据。 3. 将大字段数据写入 Hive 中。 ## 2. 整体流程 下表展示了实现该功能的整体流程及每个步骤需要做的事情: | 步骤 | 操作 | | --
原创 2023-10-01 10:18:04
61阅读
如何实现Hive SQL数据文件 作为一名经验丰富的开发者,我们经常需要将Hive SQL查询结果存储到文件中,以便后续分析和处理。在本文中,我将向您介绍如何实现“Hive SQL数据文件”的方法,并教会您如何操作。首先,我们来看一下整个过程的流程: | 步骤 | 操作 | | ---- | ---- | | 1 | 运行Hive SQL查询 | | 2 | 将查询结果导出到文
原创 2024-04-07 05:48:59
42阅读
# Python Flume 实现指南 在当今的数据分析和处理时代,Apache Flume 是一个广泛使用的数据采集系统,它能够高效地收集、聚合和移动大量的日志数据。本篇文章将指导初学者如何使用 Python 实现 Flume 数据的过程。 ## 流程概述 下面是我们整个流程的步骤概览: | 步骤 | 描述 | |------|-
原创 2024-10-13 06:50:44
73阅读
ES 中translog是存储于磁盘上的文件,每个ES分片都会一个translog,所以translog的存储路径就位于分片数据目录下。如下图所示:1:索引名称2:分片名称3存放translog文件的目录 Translog目录下有2种格式的文件,tlog后缀的文件和ckp后缀的文件。translog中存储了ES的操作记录,具体的说是ES还没落盘的数据的操作记录。因此不难看出translog的作用就
在一个完整的离线大数据处理系统中,除了HDFS+MapReduce+Hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,在此,我们首先来介绍下数据采集部分所用的的开源框架——Flume。一、FLUME概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,
转载 2023-07-11 17:37:04
136阅读
## Hive控制HDFS文件大小 作为一名经验丰富的开发者,我将指导你如何实现在Hive中控制HDFS文件大小的方法。下面将分为以下几个步骤来进行讲解: 1. 创建Hive 2. 导入数据 3. 执行插入操作 4. 检查文件大小 5. 压缩文件 ### 1. 创建Hive 首先,我们需要创建一个Hive。在Hive中,我们可以使用`CREATE TABLE`语句来创建。例如,
原创 2023-12-20 13:10:21
244阅读
  最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右,老板给我提供了使用 spark 导数据的思路,学习整理了一个多星期,终于实现了sqoop的主要功能。  这里我使用的是pyspark完成的所有操作。    条件:hdfs平台,pyspark,u
转载 2024-06-22 21:46:58
106阅读
埋点数据是指在软件系统中插入一些代码,用于收集和记录用户的行为数据。这些数据是对用户行为的记录,可以用于分析用户行为和优化产品。 Kafka是一种分布式流处理平台,具有高吞吐量、可扩展性和容错性。它被广泛应用于大数据处理和实时数据传输场景。 Hive是建立在Hadoop之上的数据仓库,用于处理大规模的数据集。它提供了类似于SQL的查询语言,方便用户进行数据分析和查询。 将埋点数据从Kafka
原创 2023-12-13 05:13:04
154阅读
# 埋点数据如何库到Hive 在大数据时代,埋点数据的收集与存储是进行用户行为分析和数据挖掘的重要环节。为了从海量的埋点数据中提取有价值的信息,我们通常需要将这些数据存储到分布式数据仓库,如Hive。本文将通过一个实际的案例,详细介绍如何将埋点数据库到Hive,并包含甘特图和类图的示例。 ## 实际问题 假设我们有一个电商平台,通过埋点技术收集用户在网站上的行为数据,例如浏览商品、添加到
原创 8月前
47阅读
  • 1
  • 2
  • 3
  • 4
  • 5