Kafka基本概念 Apache Kafka 是一个分布式发布 - 订阅消息系统和一个强大的消息队列,可以处理大量的数据,并使你能够将消息从一个端点传递到另一个端点。 Kafka 适合离线和在线消息消费。 Kafka 消息保留在磁盘上,并在群集内复制以防止数据丢失。 Kafka 构建在 Zookeeper 同步服务之上。 它与 Apache Storm 和 Spark 非常好地集成,用于实时流式数
转载 2024-07-04 15:29:38
61阅读
Kafka操作日志的清理方法Kafka0.8版本长时间运行过程中,在kafka_2.8.0-0.8.0/logs目录下产生了大量的kafka-request.log.*和server.log.*文件,其中*代表日期和时间,比如kafka-request.log.2014-12-08-03和server.log.2014-12-06-03,这些文件对磁盘空间的消耗非常大,需要
转载 2024-03-25 22:15:23
72阅读
1点赞
kafka集群基本信息实时查看和修改:     集群信息实时查看(topic工具)     kafka-topics,sh --list --zookeeper x.x.x.x      kafka-topics.sh --describe --zookeeper x.x.x.x --topic t
原创 2016-09-14 16:54:49
860阅读
kafka集群基本信息实时查看和修改:     集群信息实时查看(topic工具)     kafka-topics,sh --list --zookeeper x.x.x.x      kafka-topics.sh --describe --zookeeper x.x.x.x --topic t
原创 2016-09-14 07:08:34
1155阅读
如何在Kafka上创建topic?手工脚本创建./kafka-topics.sh –zookeeper 127.0.0.1:2181 –create –topic test.example –replication-factor 2 –partitions 12-topic制定topic的name–partitions指定分区数,这个参数要根据broker数和数据量决定,一般情况下每个Broker
自动维护offset之前使用kafka的KafkaStream让每个消费者和对应的patition建立对应的流来读取kafka上面的数据,如果comsumer得到数据,那么kafka就会自动去维护该comsumer的offset,例如在获取到kafka的消息后正准备入库(未入库),但是消费者挂了,那么如果让kafka自动去维护offset,它就会认为这条数据已经被消费了,那么会造成数据丢失。imp
转载 2024-05-09 11:18:18
68阅读
早在 0.8.2.2 版本,kafka已支持存入消费的 offset 到Topic中,只是那时候默认是将消费的 offset 存放在 Zookeeper 集群中。现在0.10.1.1及以后的版本中,官方默认将消费的offset存储在 Kafka 的Topic中,同时,也保留了存储在 Zookeeper 的接口,通过 offsets.storage 属性来进行设置。之前版本,Kafka其实存在一个比
转载 2024-03-21 08:58:00
60阅读
文章目录 Kafka itself own data store for MySql own data store for Redis 生产SparkStreaming数据零丢失实验 SparkStreaming Kafka 维护offset 官网有三种实现方式 Checkpoints Kafka
转载 2021-01-20 18:54:00
226阅读
2评论
# Kafka offset的维护 上一篇介绍过Kafka的生产者相关的机制,这一篇来介绍一下kafka消息的offset。 由于 Consumer 在消费过程中可能会出现断电宕机等故障,Consumer 恢复后,需要从故障前的位置继续消费。所以 Consumer 需要实时记录自己消费到了哪个 Offset,以便故障恢复后继续消费。 Kafka 0.9 版本之前,Consumer 默认将 Of
原创 2021-07-02 15:06:39
2435阅读
文章来源于我的知识库:https://www.yuque.com/crow/message_oriented_middlewareoffset的维护概念消费者消费完了消息是不会被立刻删除的,每个消费
原创 2022-07-04 17:06:34
354阅读
很多人对kafka消息队列应该不陌生,使用起来也比较方便。对kafka最常见的操作一般有如下几种:启动kafka集群创建一个名称为xxx的主题(topic)查看已经创建好的主题向xxx这个主题中插入一些数据从xxx这个主题中消费一些数据针对这几种操作,其实kafka都为大家提供了一系列方便使用的脚本,这些脚本都在bin文件夹中,主要有• bin/kafka-server-start.sh //
package spark_guohang import java.util.Properties import kafka.common.TopicAndPartition import org.apache.hadoop.hbase.util.Bytes import org.apache.spark.streaming.kafka010.OffsetRange import org.ap
转载 2024-03-11 12:54:46
39阅读
Spark Streaming No Receivers 方式的createDirectStream 方法不使用接收器,而是创建输入流直接从Kafka 集群节点拉取消息。输入流保证每个消息从Kafka 集群拉取以后只完全转换一次,保证语义一致性。但是当作业发生故障或重启时,要保障从当前的消费位点去处理数据(即Exactly Once语义),单纯的依靠SparkStreaming本身的机制是不太理想
转载 2024-02-24 11:48:37
32阅读
kafkaAPI操作0.10 可以使用Kafka 文件传输机制[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-p99kEjRn-1573744945633)(1573702397129.png)]ACK应答机制(重点)Offset的维护(重点)两种维护Offset的方式自动提交:设置参数,进行自动提交,默认就是自动的 enable.auto.commit=true,无
转载 2024-07-21 09:32:51
44阅读
(1)生产者概览(1)不同的应用场景对消息有不同的需求,即是否允许消息丢失、重复、延迟以及吞吐量的要求。不同场景对Kafka生产者的API使用和配置会有直接的影响。例子1:信用卡事务处理系统,不允许消息的重复和丢失,延迟最大500ms,对吞吐量要求较高。例子2:保存网站的点击信息,允许少量的消息丢失和重复,延迟可以稍高(用户点击链接可以马上加载出页面即可),吞吐量取决于用户使用网站的频度。(2)K
转载 2023-08-19 20:07:43
113阅读
1. Kafka-connector概述及FlinkKafkaConsumer(kafka source)1.1回顾kafka1.最初由Linkedin 开发的分布式消息中间件现已成为Apache顶级项目2.面向大数据3.基本概念:1.Broker2.Topic3.Partition4.Producer5.Consumer6.Consumer Group7.Offset( 生产offset , 消
转载 2024-03-27 16:36:12
51阅读
本文主要讲解kafka日常运维的命令,包括topic管理、性能测试脚本。kafka版本0.10.0,安装步骤见大数据平台搭建-kafka集群的搭建常用脚本如下所有的命令均基于KAFKA_HOME=/wls/oracle/kafka ,服务器列表如下:10.20.112.59 10.20.112.64 10.20.112.65 10.20.116.129 10.20.116.175创建topic/w
Flink手动维护offset引言对比spark来说一下,flink是如何像spar
原创 2022-11-18 15:56:55
429阅读
目的将kafka的offset保存到外部的redis数据库中,再次读取的时候也从外部的redis数据库读取 主要步骤1 从kafka获取要读取的消息的开始offset 2 通过offset读取数据,进行处理 3将读取到的最新的offset更新到redis演示案例首先启动生产者kafka-console-producer.sh \ --broker-list mypc01:9092,mypc02:9
转载 2023-08-09 21:16:54
73阅读
1.维护 offset 的原因:由于 consumer 在消费过程中可能会出现断电宕机等故障, consumer 恢复后,需要从故障前的位置的继续消费,所以 consumer 需要实时记录自己 消费到了哪个 offset,以便故障恢复后继续消费。 2. 维护 offset 的方式:Kafka 0.9 ...
转载 2021-08-20 10:47:00
756阅读
2评论
  • 1
  • 2
  • 3
  • 4
  • 5