原因有研发同事反馈,kafka集群无法消费了,经查看日志,发现数据磁盘占用100%,修改kafka参数(后续详细说明),删除kafka日志,仍无法启动,经与研发同事商量可以删除topic。过程1.与业务同事确定kafka数据保存时间,确定每个分片保存大小,涉及参数:参数名参数含义默认值此处配置log.retention.hours日志保存的时间,可以选择hours,minutes和ms168(7d
kafka删除topic数据一、概述生产环境中,有一个topic数据量非常大。这些数据不是非常重要,需要定期清理。要求:默认保持24小时,某些topic 需要保留2小时或者6小时二、清除方式主要有3个:1. 基于时间2. 基于日志大小3. 基于日志起始偏移量接下来,主要介绍基于时间的清除!kafka版本为:  2.11-1.1.0zk版本为:  3.4.13三、kafka配置
转载 2023-10-24 07:40:05
718阅读
摘要:Offset 偏移量,是针对于单个partition存在的概念。作者: gentle_zhou。Kafka,作为一款分布式消息发布和订阅系统,被广泛应用于大数据传输场景;因为其高吞吐量、内置分区、冗余及容错性的特点,可谓是一个很好的大规模消息处理应用的解决方案(行为追踪,日志收集)。基本架构组成Kafka里几有如下大基本要素:Producer:消息生产者,向Kafka cluster内的Br
转载 2024-07-18 11:43:26
38阅读
一、kafka-manager 简介为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。同时,这个管理工具也是一个非常好的可以快速浏览这个
转载 2024-02-19 22:11:20
453阅读
AdminClientApache提供的AdminClient中针对Topic的操作除了增删以外,自然还会有查询功能。本篇的主要内容是获取Topic列表,获取单个topic的详细信息等等。当然要完成Topic信息的查询,首先还是需要获取AdminClient,参考【Apache Kafka API AdminClient 获取对象】。更多内容请点击【Apache Kafka API AdminCl
转载 2024-03-21 10:55:31
786阅读
业务系统就是客户端加上后台的服务Source,channel,Event flime运行起来的进程叫agentflume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道每一个agent都有3个组件Source,channel,sink Source就相当于read(读数据) Channel就相当于缓存数据(为了解耦合) Sink就相当于write(写数据)Eventev
转载 2024-09-28 17:45:18
66阅读
这个问题是最近一个朋友问我的,用sparkstreaming消费kafka的多个topic,怎么获取topic的信息,然后根据不同topic数据做不同的逻辑处理.其实这个问题非常简单,...
原创 2021-08-16 15:05:42
1621阅读
前言一个系统随着用户数增加,那么推送到kafka服务器的数据流量会增加。很有可能原有的服务器数量无法支撑更多的流量,接着就需要增加更多的服务来分摊流量。本篇接下来就会介绍,如何操作kafka数据在服务器之间迁移。方法一:通过增加partition数量通过增加partition数量的方式来迁移数据的方式是非常简单的,因为新建的partition肯定会均匀的分配到多节点上。首先准备三个kafka br
具体思路都在代码注释中:  public class HeapSort{ public static void heapSort(int[] tree,int n) { buildHeap(tree, n);//第一步是将得到的数组构建成小顶堆 for(int i = n-1;i>=0;i--) { swap(tree, i,
前置条件从星环大数据平台下载kafka的配置文件。如下载的配置为kafka1,把该kafka1放入到/etc目录下并给kafka1目录进行如下赋权:
原创 2022-06-15 17:33:34
270阅读
什么是kafka  kafka官方定义是一个分布式流处理平台,但是他更多是被用来当作一个分布式消息队列来使用。重要概念:borker:   kafka集群可以有多个borker实例组成,每个实例称为borker。topic:   主题,主题是一个逻辑概念,可以理解为topic是一种类别。kafka吧收到的消息按topic进行分类。partition:   分区,分区是物理分区,一个主题中会有多个分
参考:深入理解Kafka核心设计和实践原理8、数据保存策略每个partition物理上对应一个文件夹,此文件叫存储该partition中所有消息和索引文件; 1、基于时间的保存策略:log.retition.hours=168(一周) 2、基于大小的保存策略:log.retention.bytes=1073741824(1G)9、kafka的消费过程kafka提供了高级consumerAPI和低级
转载 2024-03-20 14:32:50
189阅读
一、Kafka机器数量计算Kafka机器数量(经验公式)= 2 *(峰值生产速度 * 副本数 / 100)+ 1先拿到峰值生产速度,再根据设定的副本数,就能预估出需要部署Kafka的数量。1)峰值生产速度峰值生产速度可以压测得到。2)副本数副本数默认是1个,在企业里面2-3个都有,2个居多。副本多可以提高可靠性,但是会降低网络传输效率。比
我上大学时那时候安卓的版本才到安卓4.4,在智能手机出来普及以前,各大网站的数据量并没有那么多,但是随着智能手机的普及,互联网巨头家里的数据呈现几何级增长,像什么微博,微信,视频网站的数据;需要找到合适的存储方式—>>分布式存储架构,可以水平扩展,实现存储数据类型多样化,二维可以实现高容错高吞吐量,轻松实现大文件存储(支持P级别的
原创 2023-03-15 11:01:42
569阅读
大数据大数据!浪尖浪尖聊大数据开始本文之前,希望大家参与一下下面的投票。做这个投票的主要原因是最近经常有找浪尖咨询大数据,自学,培训及找工作的事情,问题归类如下:大数据要不要培训自学一段时间,发现很痛苦,没人指导想放弃,培训费用太高了培训发现跟不上,举步维艰培训结束了,为啥面试机会甚少下面分类回答一下。1.大数据需要培训吗?对于java老鸟,因为有比较强的编程经验,可以买点视频或者找大牛付费专栏
原创 2021-03-19 13:47:02
10000+阅读
大数据大数据
原创 2021-07-23 17:57:03
10000+阅读
1. Kafka 是什么? Kafka 是⼀种⾼吞吐量、分布式、基于发布 / 订阅的消息系统,最初由 LinkedIn 公司开 发,使⽤ Scala 语⾔编写,⽬前是 Apache 的开源项⽬。 broker : Kafka 服务器,负责消息 存储和转发 topic :消息类别, Kafka 按照
转载 2024-05-21 17:40:15
119阅读
对于 Kafka Java 清空 Topic 数据的问题,很多开发者在使用 Kafka 的过程中,常常会面临需要清空 Topic 的情况。本文将围绕这个问题进行深入探讨,从背景分析到扩展应用,全面梳理清空 Topic 数据的各个环节。 在众多业务场景中,Kafka 作为消息队列工具,其高吞吐量与高可用性使得它在大规模数据处理中被广泛应用。例如,在一个电商平台,实时订单信息的处理对系统稳定性和性能
原创 6月前
55阅读
复习下JAVA线程基础知识:1、线程的状态:创建状态:创建了线程对象,此时线程有了相应的内存空间和其他资源,但处于不可运行状态。就绪状态:线程对象调用start()方法启动线程,进入就绪状态,此时线程进入线程队列排队,此时已经具备运行的条件。运行状态:线程抢占到cpu资源,此时线程进入运行状态,自动调用run()方法。阻塞状态:正在运行的线程,让出cpu资源并暂时中止自己的执行,进入阻塞状态,在可
在项目开发的过程中我们经常会遇到类似的业务场景:用户申请提现,后台进行账务处理、发送提现短信、调用银行打款通道。 在这个过程中调用三方通道(短信或银行通道)都比较耗时,同时账务处理可能也是由专门的账务系统进行处理。那么,为了提高并发和相应速度,后面的三个操作都可以通过异步进行处理。这就用到了消息队列。消息队列中间件是分布式系统中重要的组件,主要解决应用耦合、异步消息、流量削锋等问题,实
  • 1
  • 2
  • 3
  • 4
  • 5