通常通过Amazon S3读取和写入数据的速度也要慢于使用HDFS,即使Amazon S3存储桶与基于Amazon EC2基础架构上运行的Hadoop集群,原因如下:    1、在Amazon S3上,重命名是非常昂贵的复制操作。 在提交阶段,重命名表面的性能下降,其中包括:    MapReduce FileOutputComm
转载 2023-08-10 13:32:59
113阅读
SpringBoot 整合 Kafka基本使用-简单的生产消费项目的基本构建简单的生产消费进阶使用-生产者带回调的生产者事务提交消息自定义分区器进阶使用-消费者指定消费者监听主题、分区、偏移量消费者批量消费消费者异常处理消费者消息过滤消费者消息转发 基本使用-简单的生产消费项目的基本构建新建一个 maven 项目,引入 kafka 依赖,pom 文件内容如下<parent>
转载 2023-09-27 22:32:39
136阅读
背景 公司的系统是一个对外提供服务的接口,每一次调用日志都需要保存到hive中,以便后期做数据分析。每天的调用量在亿级,日志数据量100G以上,在量级还没有这么大的时候,采取的办法比较原始:直接通过log4j打印到日志文件,然后通过抽数工具同步到hive中,每天凌晨同步前一天的数据。随着量级增大,日志文件越来越大,每天抽数就要抽好几个小时,而且偶尔还由于网络问题等原因失败。 方案
转载 2023-08-21 21:30:51
113阅读
## 从KafkaHive:实时数据处理的完美组合 在当今的互联网时代,数据处理变得越来越重要。实时数据处理成为各行业研究和分析的重要手段之一。KafkaHive作为两个非常流行的开源工具,在实时数据处理中发挥着重要作用。Kafka是一个分布式流处理平台,而Hive是一个数据仓库基础设施,可以方便地进行数据查询和分析。本文将介绍KafkaHive的基本概念,并演示如何将二者结合起来进行实时
原创 2024-05-03 05:46:19
21阅读
Spark对接Hive(必会)Spark操作Hive相比较Hive执行的MR,效率要高,因为Spark是基于DAG有向无环图,实现的内存迭代式计算,MR是基于磁盘计算引擎,相比Spark的迭代计算,要慢的多,并且磁盘IO太大,没有太好的优化,Spark是内存处理,速度要快的多,所以使用Spark对接Hive已经成为主流,例如:SparkSQL来实现的数仓操作实现方式:将Hive中的hive-sit
转载 2023-08-24 10:17:36
69阅读
# KafkaHive:实时数据流处理的完美组合 ![journey](mermaid journey title KafkaHive的实时数据流处理 section 采集数据 Kafka --> Hive: 将数据实时发送到Kafka section 数据流处理 Hive --> Hive: 创建外部表 Hive --> Hive: 创建内部表
原创 2023-10-03 08:34:06
83阅读
背景公司的系统是一个对外提供服务的接口,每一次调用日志都需要保存到hive中,以便后期做数据分析。每天的调用量在亿级,日志数据量100G以上,在量级还没有这么大的时候,采取的办法比较原始:直接通过log4j打印到日志文件,然后通过抽数工具同步到hive中,每天凌晨同步前一天的数据。随着量级增大,日志文件越来越大,每天抽数就要抽好几个小时,而且偶尔还由于网络问题等原因失败。方案日志数据不能直接发送给
转载 2023-07-12 09:23:25
93阅读
一、参考资料springboot 之集成kafka - 简书SpringBoot整合kafka(实现producer和consumer) - 简书
原创 2022-07-28 14:28:01
333阅读
Kafka 入门和 Spring Boot 集成标签:博客目录Kafka 入门和 Spring Boot 集成标签:博客概述应用场景基本概念基本结构和Spring Boot 集成集成概述集成环境kafka 环境搭建Spring Boot 和 Spring for Apache Kafka 集成步骤最后概述kafka 是一个高性能的消息队列,也是一个分布式流处理平台(这里的流指的是数据流)。由jav
1. Kafka集成介绍Kafka 是一种分布式的,高吞吐率, 基于发布 / 订阅的消息系统。Kafka主要特点是基于Pull的模式来处理消息消费,追求高吞吐量,如果有大量的消息处理(10W+),对一致性要求不高, 那么可以采用KAFKA, 比如日志采集、 数据同步与归档、实时流数据处理等场景。Spring 官方为我们提供了Spring-kafka组件, 这里讲解如何与Spring Boot集成使
转载 2024-03-01 14:30:07
131阅读
前言本文基于Flink1.11.2 的稳定版本探讨flink实时写入Hive的技术可行性,下面是个本地测试的案例可供参考。一、Flink ETL SQL化思路我们有很多实时数据是存储在kafka中,如何按照分区低延迟的高效存储在Hive数仓中以便于近实时分析是我们现在一个普遍诉求。 这里暂不涉及修改的记录,使用场景局限在某些日志类型,如涉及更新修改的应考察数据湖方案。Flink在1.11版本中已经
转载 2023-09-20 16:32:58
270阅读
简介Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。Apache Hudi不仅非常适合于流工作负载,而且还允许创建高效的增量批处理
转载 2024-05-20 23:02:32
96阅读
一、Apache Hudi数据实时处理和实时的数据        实时分为处理的实时和数据的实时,即席分析是要求对数据实时的处理,马上要得到对应的结果,Flink、Spark Streaming是用来对实时数据的实时处理,数据要求实时,处理也要迅速,数据不实时,处理也不及时的场景则是我们的数仓T+1数据而本文探讨的Ap
转载 2023-10-01 19:43:24
260阅读
目录1 连接2 KDC 安装2.1 安装 Kerberos 服务2.2 配置 /var/kerberos/krb5kdc/kdc.conf2.3 配置 /var/kerberos/krb5kdc/kadm5.acl2.4 配置 /etc/krb5.conf2.5 创建 Kerberos 数据库2.6 创建 Kerberos 管理员账号2.7 将 Kerberos 添加到自启动服务,并启动krb5
转载 2024-03-10 22:59:30
177阅读
Hive集成HBase配置将hive的lib/中的HBase.jar包用实际安装的Hbase的jar包替换掉cd /opt/hive/lib/ls hbase-0.94.2* rm -rf hbase-0.92*cp /opt/hbase/hbase-0.94.2* 将Hive的lib/中的zookeeper.jar包用HBase中lib/中的替换掉步骤同上 在hiv
转载 2023-07-24 21:38:47
114阅读
Hudi 搭建  环境准备一、安装 Maven1.解压2.配置环境变量3.修改 Maven 下载源二、安装 Hudi1.解压2.配置环境变量3.修改 Hudi 下载源与对应版本号4.修改源码以兼容 Hadoop3.x5. 解决 Spark 依赖冲突6. 解决 Spark 向 Hudi 插入报错7. 编译 Hudi8. 启动测试集群其它生态安装与配置:Hadoop 完
转载 2024-07-24 10:07:32
46阅读
最近在搞flink,搞了一个当前比较新的版本试了一下,当时运行了很长时间,hdfs里面查询有文件,但是hive里面查询这个表为空,后面用了很多种方式,一些是说自己去刷新hive表,如下:第一种方式刷新 alter table t_kafkamsg2hivetable add partition(dt='2022-03-04',hr=11); 第二种方式刷新,也可以说是修复 msck repair
转载 2023-09-02 22:15:11
219阅读
数据采集传输主要技术分为两类,一类是离线批处理、另一类是实时数据采集和传输离线批处理最有名的是Sqoop、实时数据采集和传输最为常用的是Flume和KafkaSqoop:一款开源的离线数据传输工具,主要用于Hadoop(Hive)与传统数据库(Mysql、Oracle)之间数据传递。Flume:实时日志采集平台,一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Kafka:通常来说Flu
转载 2023-11-25 09:29:20
591阅读
Hive/Phoenix + Druid + JdbcTemplate 在 Spring Boot 下的整合标签: hadoop / spring boot / hive / phoenix /druid1959一.POM依赖 作者的hadoop集群环境为:HDFS,YARN,MapReduce2 : 2.7.3Hive : 1.2.1000HBa
转载 2023-11-22 16:11:32
91阅读
大数据环境安装和配置(Hadoop2.7.7,Hive2.3.4,Zookeeper3.4.10,Kafka2.1.0,Flume1.8.0,Hbase2.1.1,Spark2.4.0等)系统说明搭建步骤详述一、节点基础配置二、Hadoop安装和配置三、Hive安装和配置四、ZooKeeper安装和配置五、Kafka安装和配置六、Flume安装和配置七、Hbase安装和配置八、Spark安装和配
转载 2023-07-13 16:32:22
111阅读
  • 1
  • 2
  • 3
  • 4
  • 5