背景 公司的系统是一个对外提供服务的接口,每一次调用日志都需要保存到hive中,以便后期做数据分析。每天的调用量在亿级,日志数据量100G以上,在量级还没有这么大的时候,采取的办法比较原始:直接通过log4j打印到日志文件,然后通过抽数工具同步到hive中,每天凌晨同步前一天的数据。随着量级增大,日志文件越来越大,每天抽数就要抽好几个小时,而且偶尔还由于网络问题等原因失败。 方案
转载 2023-08-21 21:30:51
113阅读
Spark对接Hive(必会)Spark操作Hive相比较Hive执行的MR,效率要高,因为Spark是基于DAG有向无环图,实现的内存迭代式计算,MR是基于磁盘计算引擎,相比Spark的迭代计算,要慢的多,并且磁盘IO太大,没有太好的优化,Spark是内存处理,速度要快的多,所以使用Spark对接Hive已经成为主流,例如:SparkSQL来实现的数仓操作实现方式:将Hive中的hive-sit
转载 2023-08-24 10:17:36
65阅读
## 从KafkaHive:实时数据处理的完美组合 在当今的互联网时代,数据处理变得越来越重要。实时数据处理成为各行业研究和分析的重要手段之一。KafkaHive作为两个非常流行的开源工具,在实时数据处理中发挥着重要作用。Kafka是一个分布式流处理平台,而Hive是一个数据仓库基础设施,可以方便地进行数据查询和分析。本文将介绍KafkaHive的基本概念,并演示如何将二者结合起来进行实时
原创 4月前
10阅读
背景公司的系统是一个对外提供服务的接口,每一次调用日志都需要保存到hive中,以便后期做数据分析。每天的调用量在亿级,日志数据量100G以上,在量级还没有这么大的时候,采取的办法比较原始:直接通过log4j打印到日志文件,然后通过抽数工具同步到hive中,每天凌晨同步前一天的数据。随着量级增大,日志文件越来越大,每天抽数就要抽好几个小时,而且偶尔还由于网络问题等原因失败。方案日志数据不能直接发送给
转载 2023-07-12 09:23:25
77阅读
# KafkaHive:实时数据流处理的完美组合 ![journey](mermaid journey title KafkaHive的实时数据流处理 section 采集数据 Kafka --> Hive: 将数据实时发送到Kafka section 数据流处理 Hive --> Hive: 创建外部表 Hive --> Hive: 创建内部表
原创 2023-10-03 08:34:06
60阅读
前言本文基于Flink1.11.2 的稳定版本探讨flink实时写入Hive的技术可行性,下面是个本地测试的案例可供参考。一、Flink ETL SQL化思路我们有很多实时数据是存储在kafka中,如何按照分区低延迟的高效存储在Hive数仓中以便于近实时分析是我们现在一个普遍诉求。 这里暂不涉及修改的记录,使用场景局限在某些日志类型,如涉及更新修改的应考察数据湖方案。Flink在1.11版本中已经
转载 2023-09-20 16:32:58
222阅读
大数据环境安装和配置(Hadoop2.7.7,Hive2.3.4,Zookeeper3.4.10,Kafka2.1.0,Flume1.8.0,Hbase2.1.1,Spark2.4.0等)系统说明搭建步骤详述一、节点基础配置二、Hadoop安装和配置三、Hive安装和配置四、ZooKeeper安装和配置五、Kafka安装和配置六、Flume安装和配置七、Hbase安装和配置八、Spark安装和配
转载 2023-07-13 16:32:22
79阅读
一、需求描述由于本人主要从事大数据可视化的工作,就少不了对海量数据的分析,但是我们并不是数据的生产来源,数据来自有大数据可视化分析需求的用户,所以实际业务中往往会遇到大量数据从传统存储方式(关系型数据库、文件存储等)到数据仓库的迁移,本次就以实现如何基于kafka从oracle到hive仓库做数据的迁移工作。 本次操作的数据量为空间坐标数据,原始数据存储在oracle中,大概10亿条左右,通过本
转载 2023-10-08 15:54:39
184阅读
1、如何获取 topic 主题的列表  bin/kafka-topics.sh --list --zookeeper localhost:21812、生产者和消费者的命令行是什么?生产者在主题上发布消息:bin/kafka-console-producer.sh --broker-list 192.168.43.49:9092 --topicHello-Kafka注意这里的 IP 是 server
转载 2023-10-19 11:13:18
69阅读
数据采集传输主要技术分为两类,一类是离线批处理、另一类是实时数据采集和传输离线批处理最有名的是Sqoop、实时数据采集和传输最为常用的是Flume和KafkaSqoop:一款开源的离线数据传输工具,主要用于Hadoop(Hive)与传统数据库(Mysql、Oracle)之间数据传递。Flume:实时日志采集平台,一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Kafka:通常来说Flu
最近在搞flink,搞了一个当前比较新的版本试了一下,当时运行了很长时间,hdfs里面查询有文件,但是hive里面查询这个表为空,后面用了很多种方式,一些是说自己去刷新hive表,如下:第一种方式刷新 alter table t_kafkamsg2hivetable add partition(dt='2022-03-04',hr=11); 第二种方式刷新,也可以说是修复 msck repair
转载 2023-09-02 22:15:11
194阅读
# Kafka入库Hive流程 ## 1. 概述 在本文中,我们将讨论如何使用Kafka将数据实时入库到Hive中。Kafka是一个分布式流处理平台,用于发布和订阅流数据。而Hive是建立在Hadoop之上的数据仓库基础架构,用于数据提取、转换和加载。 ## 2. 流程图 下面的甘特图展示了Kafka入库Hive的整个流程。我们将按照这个流程逐步介绍每个步骤。 ```mermaid gant
原创 2023-10-31 10:11:56
97阅读
# 使用Hive接收Kafka数据:初学者指南 在大数据领域,HiveKafka是两个非常重要的工具。Hive是一个基于Hadoop的数据仓库工具,而Kafka则是一个高吞吐量的分布式消息队列系统。当我们想要将Kafka中的实时数据流批量存储到Hive中时,就需要进行一些配置和编程。本文将带您逐步了解如何实现HiveKafka的整个流程。 ## 整体流程 下面的表格展示了实现Hive接K
原创 1月前
8阅读
Apache Hive 从 HIVE-1555 开始引入了 JdbcStorageHandler ,这个使得 Hive 能够读取 JDBC 数据源,关于 Apache Hive 引入 JdbcStorageHandler 的背景可以参见 《Apache Hive 联邦查询(Query Federation)》。本文主要简单介绍
转载 8月前
47阅读
引入jar<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-java</artifactId> <version>1.8.0</version> </dependency> <dependency>
# 如何实现“kafka to hive产品” ## 1. 流程图 ```mermaid sequenceDiagram participant 开发者 participant 小白 小白->>开发者: 请求教学如何实现“kafka to hive产品” 开发者->>小白: 分享整个流程 ``` ## 2. 整件事情的流程 | 步骤 | 描述
原创 6月前
21阅读
## 如何实现“hive kafka 写入” ### 1. 流程图 ```mermaid flowchart TD A(创建Hive表) --> B(连接Kafka) B --> C(写入Kafka数据) ``` ### 2. 步骤及代码实现 | 步骤 | 操作 | 代码示例 | | ----------- |
原创 4月前
29阅读
import java.time.Durationimport com.sm.common.conf.PropManagerimport com.sm.constants.Constantsimport com.sm.utils.FlinkUtilsimport org.apache.flink.streaming.api.{CheckpointingMode, TimeCharacteristic}import org.apache.flink.streaming.api.environme.
原创 2021-08-31 13:47:50
1034阅读
# 从Seatunnel到Kafka的数据传输实现指南 ## 概述 本文将教会你如何使用Seatunnel将数据传输到Kafka。Seatunnel是一种用于实时数据传输的工具,而Kafka是一种分布式流处理平台。我们将介绍整个流程,并提供详细的代码示例。 ## 流程概述 下表展示了实现"Seatunnel到Kafka"数据传输的步骤概述: | 步骤 | 描述 | | --- | --- |
原创 9月前
128阅读
1、maven依赖,pom.xml文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSch
转载 2021-04-22 15:34:00
1265阅读
2评论
  • 1
  • 2
  • 3
  • 4
  • 5