引言在探究 Kafka 核心知识之前,我们先思考一个问题:什么场景会促使我们使用 Kafka?  说到这里,我们头脑中或多或少会蹦出异步解耦和削峰填谷等字样,是的,这就是 Kafka 最重要的落地场景。异步解耦:同步调用转换成异步消息通知,实现生产者和消费者的解耦。想象一个场景,在商品交易时,在订单创建完成之后,需要触发一系列其他的操作,比如进行用户订单数据的统计、给用户发送短信、给用户
0x00 概述本文主要讲Kafka自身操作日志的清理方法(非Topic数据),Topic数据自己有对应的删除策略,请看这里。Kafka长时间运行过程中,在kafka/logs目录下产生了大量的kafka-request.log.*和server.log.*文件,其中*代表日期和时间,比如kafka-request.log.2018-12-08-03和server.log.2018-12-06-03
转载 2024-03-22 10:57:00
447阅读
 由于项目原因,最近经常碰到Kafka消息队列拥堵的情况。碰到这种情况为了不影响在线系统的正常使用,需要大家手动的清理Kafka Log。但是清理Kafka Log又不能单纯的去删除中间环节产生的日志,中间关联的很多东西需要手动同时去清理,否则可能会导致删除后客户端无法消费的情况。  在介绍手动删除操作之前,先简单的介绍一下Kafka消费Offset原理。一、Kafka消费Of
日志清理Kafka 将消息存储在磁盘中,为了控制磁盘占用空间的不断增加就需要对消息做一定的清理操作。Kafka 中每一个分区副本都对应一个 Log,而 Log 又可以分为多个日志分段,这样也便于日志的清理操作。Kafka 提供了两种日志清理策略:日志删除(Log Retention):按照一定的保留策略直接删除不符合条件的日志分段。日志压缩(Log Compaction):针对每个消息的 key
转载 2024-03-25 09:54:04
24阅读
文章目录1. kafka日志清理策略概述2. kafka segment2.1 segmnet 的作用2.2 segment生成相关的配置3. 日志清理delete策略3.1 delete 相关配置3.2 简单总结4. 日志清理compact策略4.1 日志compact的使用场景4.2 compact的工作模式4.3 tombstone 消息4.4 低流量topic的注意事项4.5 简单总结c
转载 2024-02-08 15:05:41
1180阅读
为什么需要消息队列周末无聊刷着手机,某宝网APP突然蹦出来一条消息“为了回馈老客户,女朋友买一送一,活动仅限今天!”。买一送一还有这种好事,那我可不能错过!忍不住立马点了去。于是选了两个最新款,下单、支付一气呵成!满足的躺在床上,想着马上有女朋友了,竟然幸福的失眠了……第二天正常上着班,突然接到快递小哥的电话:小哥:“你是xx吗?你的女朋友到了,我现在在你楼下,你来拿一下吧!”。我:“这……我在上
转载 2024-03-27 16:50:49
99阅读
清理kafka zookeeper
原创 2021-07-30 10:17:19
1319阅读
   环境:kafka  0.10spark  2.1.0zookeeper  3.4.5-cdh5.14.0公司阿里云测试机,十月一放假前,没有在继续消费,假期过后回来再使用spark streaming消费某个消费组下的kafka时报错如下:As I regularly kill the servers running Kafka a
转载 2024-06-19 17:56:36
56阅读
# 使用 Docker 清理 Kafka 的指南 在现代微服务架构中,Kafka 作为消息队列系统被广泛应用于数据流处理和事件驱动架构中。然而,随着时间的推移,Docker 中运行的 Kafka 实例可能会积累大量不必要的数据。这不仅浪费存储空间,还可能影响系统的性能。因此,了解如何清理 Docker 中的 Kafka 数据是非常重要的。本文将详细介绍这一过程,并提供相应的代码示例。 ## 了
原创 2024-08-10 07:15:56
120阅读
前言Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编写,Linkedi
一、概述生产环境中,有一个topic的数据量非常大。这些数据不是非常重要,需要定期清理。要求:默认保持24小时,某些topic 需要保留2小时或者6小时 二、清除方式主要有3个:1. 基于时间2. 基于日志大小3. 基于日志起始偏移量  接下来,主要介绍基于时间的清除!kafka版本为:  2.11-1.1.0zk版本为:  3.4.13&nbsp
转载 2023-10-14 17:10:25
1114阅读
  由于项目原因,最近经常碰到Kafka消息队列拥堵的情况。碰到这种情况为了不影响在线系统的正常使用,需要大家手动的清理Kafka Log。但是清理Kafka Log又不能单纯的去删除中间环节产生的日志,中间关联的很多东西需要手动同时去清理,否则可能会导致删除后客户端无法消费的情况。  在介绍手动删除操作之前,先简单的介绍一下Kafka消费Offset原理。一、Kafka消费O
转载 2024-03-27 16:49:55
79阅读
Kafka Broker默认的消息保留策略是:要么保留一定时间,要么保留到消息达到一定大小的字节数。当消息达到设置的条件上限时,旧消息就会过期并被删除,所以,在任何时刻,可用消息的总量都不会超过配置参数所指定的大小。topic可以配置自己的保留策略,可以将消息保留到不再使用他们为止。因为在一个大文件里查找和删除消息是很费时的事,也容易出错,所以,分区被划分为若干个片段。默认情况下,每个片段包含1G
2015年11月06日 15:40:56 阅读数:23054 Kafka将数据持久化到了硬盘上,允许你配置一定的策略对数据清理清理的策略有两个,删除和压缩。数据清理的方式删除log.cleanup.policy=delete启用删除策略直接删除,删除后的消息不可恢复。可配置以下两个策略:清理超过指定时间清理:  log.retention.hours=16超过指定大小后,删除旧
默认配置server.conf里的核心配置项 #最大日志保留大小 log.retention.bytes=1073741824 #日志保留时间长度 log.retention.minutes=10 log.segment.delete.delay.ms=
转载 2024-03-13 09:50:07
298阅读
数据丢失为大事,针对数据丢失的问题我们排查结果如下。第一:是否存在数据丢失的问题?    存在,且已重现。第二:是在什么地方丢失的数据,是否是YDB的问题?    数据丢失是在导入阶段,数据并没有写入到Kafka里面,所以YDB也就不会从Kafka里面消费到缺失的数据,数据丢失与延云YDB无关。第三:是如何发现有数据丢失? &n
转载 2024-03-27 16:37:58
35阅读
新入手mac,当然是装各种软件啦 下面来记录一下使用mac安装kafka的过程,mac上面的homebrew是真的好用 下面我们来开始进入安装吧 安装环境基础 # jdk1.8 并且配置好环境变量 1.直接使用brew安装,安装过程会自动安装zookeeperbrew install kafka效果如下 2. 安装位置以及配置文件路径都在图片上显示了,并且怎么启动也都告诉了我们 3. 安装位置/u
转载 2024-03-06 15:37:51
55阅读
阿里云KafkaManager官方帮助文档 https://help.aliyun.com/knowledge_detail/56933.htmlkafkaManager是由Yahoo开源的一个Kafka管理工具,提供的主要功能如下:方便的集群状态监控(包括Topics,Consumers,Offsets,Brokers,ReplicaDistribution,PartitionDist
每天定时清理kafka集群server端3天前的系统日志写清理脚本,:在/data1/kafka/kafka 目录下新建文件 auto-delete-kafka-3days-ago-log.sh 内容如下:#!/bin/sh find /data1/kafka/kafka/logs/ -mtime +3 -name "*.log" -exec rm -rf {} \;注意:这个地方不要漏了 最后
Kafka 作为一个高吞吐的消息中间件和传统的消息中间件一个很大的不同点就在于它的日志实际上是以日志的方式默认保存在/kafka-logs文件夹中的。虽然默认有7天清楚的机制,但是在数据量大,而磁盘容量不足的情况下,经常出现无法写入的情况。如何调整Kafka的一些默认参数就显得比较关键了。这里笔者整理了一些常见的配置参数供大家参考:分段策略属性 属性名 | 含义 |默认值 ---|---|-- l
  • 1
  • 2
  • 3
  • 4
  • 5