spark streaming从kafka的某个topic拉取数据,处理完后再放入某个topic中的一个模板,不完整,作为参考,加了部分备注。 Spa
原创
2022-08-12 14:11:50
105阅读
window APIwindow APIWindow 概述window窗口的分类Window的使用测试window APIWindow 概述streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限 数据集是指一种不断增长的本质上无限的数据集,而window 是一种切割无限数据 为有限块进行处理的手段。
原创
2022-04-27 21:33:37
306阅读
目录CAP理论概述ConsistencyAvailabilityPartition Tolerance CAP理论概述1988年,加州大学计算机科学家Eric Brewer 提出了分布式系统的三大指标:Consistency、Availability、Partition Tolerance,他指出这三个条件同时最多只能满足两个,目前所有的分布式系统都遵循CAP定律,比如Hadoop、HBASE、
转载
2024-06-19 11:59:46
801阅读
今天主要简单写一下kafka的读写,我写了java,scala两个版本的,写法比较老,但都能用,已经测试过了,直接上代码吧;java版本:package com.cn.kafka;import java.util.Arrays;import java.util.HashMap;import java.util.Map;import java.util.Properties;i...
原创
2021-08-16 15:21:09
345阅读
今天主要简单写一下kafka的读写,我写了java,scala两个版本的,写法比较老,但都能用,已经测试过了,直接上代码吧;
java版本:
package com.cn.kafka;
import java.util.Arrays;
import java.util.HashMap;
import java.util.Map;
import java.util.Properties;
imp
原创
2021-08-16 15:21:50
448阅读
package com.shujia.kafka import java.util.Properties import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord} object Demo1KafkaProduce ...
转载
2021-07-24 22:32:00
216阅读
2评论
一、概念1.什么是Kafka?Kafka是一种高吞吐量的分布发布-订阅消息系统,专为超高吞
原创
2022-11-02 14:52:31
114阅读
新旧API使用 Flume和Kafka集成:Kafka有两套API: 过时的API 和新API准备工作<dependencies>
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka-clients&
转载
2024-06-03 21:26:55
69阅读
Kafka版本选择 我们这次分析的Kafka的版本是0.10.1版本,现在最新的Kafak版本2.5.x了。但是我们分析的Kafka的核心源码流程没多大变化。选择分析老版本的一个原因是:我个人的习惯一般去分析一个技术的源码都不挑最新的版本,都会挑老一点的版本,正常情况下老一点的版本代码结构会更清晰,因为像这种开源的项目,很多人都会去提交一些patch,但是提交patch的开发人员水平参差
转载
2024-04-15 12:18:28
118阅读
本文目的研究了一下Kafka Produce/Consumer 的API,发现Consumer API的使用并没有那么的straight forward。折腾了2天后,终于摸到了一些门道,这里记录下怎样使用High Level Consumer API来接收并处理一个Topic中的消息。本文的例子用Scala编写,如果要改成Java的其实很容易。环境Kafka为0.8.2.0(CDH版本) Sc
转载
2023-08-23 22:44:15
112阅读
Kafka提供了以下4类核心APIProducer API :提供生产消息相关接口,我们通过实现该API提供的接口来自定义Producer、自定义分区策略等Consumer API :Consumer API提供消费信息相关接口,包括创建消费者、消费偏移量管理端等。Stream API:Streams API是Kafka提供的一系列用来构建流处理程序的接口,通过Streams API让流处理相关的
转载
2024-02-24 11:49:11
176阅读
建表:// 创建kudu连接val kuduClient = new KuduClient.KuduClientBuilder("172.20.85.29:7051").build() // 设置表名val tableName = "kudu_test" // 创建列val colums = List[ColumnSchema]((new ColumnSchema.ColumnSc...
原创
2022-03-28 17:38:22
466阅读
包括ElasticSearch的索引库的CRUD、以及中文分词、分页查询....
原创
2019-06-21 09:22:01
6511阅读
建表:// 创建kudu连接val kuduClient = new KuduClient.KuduClientBuilder("172.20.85.29:7051").build() // 设置表名val tableName = "kudu_test" // 创建列val colums = List[ColumnSchema]((new ColumnSchema.ColumnSc...
原创
2021-06-21 17:39:03
416阅读
1 Producer API1.1 消息发送流程 Kafka 的 Producer 发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main 线程和 Sender 线程,以及一个线程共享变量——RecordAccumulator。main 线程将消息发送给 RecordAccumulator,Sender 线程不断从 RecordAccumulator 中拉取消
转载
2021-09-26 10:36:48
351阅读
kafka APIkafka Consumer提供两套Java API:高级Consumer API、和低级Consumer API。高级Consumer API 优点:高级API写起来简单,易用。
不需要自行去管理offset,API已经封装好了offset这块的东西,会通过zookeeper自行管理
不需要管理分区,副本等情况,系统自动管理
消费者断线后会自动根据上次记录在zookeeper中
转载
2023-12-06 20:48:37
48阅读
kafka是一个分布式的流平台,作为流平台有3个标志: 1.发布和订阅流记录; 2.以容错持久的方式存储记录流; 3.在记录流出现时处理它们。kafka主要用于2种应用: 1.构建实时流数据管道,并且在系统或应用程序之间可靠地获取数据; 2.构建实时流应用程序用于转换或
转载
2024-05-15 07:06:40
41阅读
文章目录1.Producer API1.1 消息发送流程1.2 异步发送API1.2.1 导入依赖1.2.2 添加log4j配置文件1.2.3 编写代码1.2.3.1 不带回调函数的API1.2.3.2 带回调函数的API1.3 自定义分区器2.Consumer API2.1 自动提交offset2.1.1 编写代码2.2 手动提交offset2.2.1 同步提交offset2.2.2 异步提交
转载
2024-03-16 03:42:49
28阅读
7.1、Kafka 的 API 分类 1、The Producer API 允许一个应用程序发布一串流式的数据到一个或者多个 Kafka Topic。 2、The Consumer API 允许一个应用程序订阅一个或多个 Topic ,并且对发布给他们的流式数据进行处理。 3、The Streams API &n
转载
2023-10-29 11:43:02
57阅读
大家好,我是tin,这是我的第22篇原创文章kafka是一个高吞吐、低延时的消息中间件。采用Java和scala语言编写,它有着非常多的优秀设计。要想学习讨论kafka的优秀理念,源码阅读必不可少。今天我们开始搭建kafka环境。目录一、JDK二、scala三、gradle四、kafka源码1. 拉取源码库2. 安装scala插件3. 启动kafka broker五、结语一、J
转载
2024-03-06 08:12:32
104阅读