spark streaming从kafka的某个topic拉取数据,处理完后再放入某个topic中的一个模板,不完整,作为参考,加了部分备注。    Spa
原创 2022-08-12 14:11:50
105阅读
window APIwindow APIWindow 概述window窗口的分类Window的使用测试window APIWindow 概述streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限 数据集是指一种不断增长的本质上无限的数据集,而window 是一种切割无限数据 为有限块进行处理的手段。
原创 2022-04-27 21:33:37
306阅读
目录CAP理论概述ConsistencyAvailabilityPartition Tolerance CAP理论概述1988年,加州大学计算机科学家Eric Brewer 提出了分布式系统的三大指标:Consistency、Availability、Partition Tolerance,他指出这三个条件同时最多只能满足两个,目前所有的分布式系统都遵循CAP定律,比如Hadoop、HBASE、
转载 2024-06-19 11:59:46
801阅读
今天主要简单写一下kafka的读写,我写了java,scala两个版本的,写法比较老,但都能用,已经测试过了,直接上代码吧;java版本:package com.cn.kafka;import java.util.Arrays;import java.util.HashMap;import java.util.Map;import java.util.Properties;i...
原创 2021-08-16 15:21:09
345阅读
今天主要简单写一下kafka的读写,我写了java,scala两个版本的,写法比较老,但都能用,已经测试过了,直接上代码吧; java版本: package com.cn.kafka; import java.util.Arrays; import java.util.HashMap; import java.util.Map; import java.util.Properties; imp
原创 2021-08-16 15:21:50
448阅读
package com.shujia.kafka import java.util.Properties import org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord} object Demo1KafkaProduce ...
转载 2021-07-24 22:32:00
216阅读
2评论
一、概念1.什么是KafkaKafka是一种高吞吐量的分布发布-订阅消息系统,专为超高吞
原创 2022-11-02 14:52:31
114阅读
新旧API使用 Flume和Kafka集成:Kafka有两套API: 过时的API 和新API准备工作<dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients&
转载 2024-06-03 21:26:55
69阅读
Kafka版本选择 我们这次分析的Kafka的版本是0.10.1版本,现在最新的Kafak版本2.5.x了。但是我们分析的Kafka的核心源码流程没多大变化。选择分析老版本的一个原因是:我个人的习惯一般去分析一个技术的源码都不挑最新的版本,都会挑老一点的版本,正常情况下老一点的版本代码结构会更清晰,因为像这种开源的项目,很多人都会去提交一些patch,但是提交patch的开发人员水平参差
本文目的研究了一下Kafka Produce/Consumer 的API,发现Consumer API的使用并没有那么的straight forward。折腾了2天后,终于摸到了一些门道,这里记录下怎样使用High Level Consumer API来接收并处理一个Topic中的消息。本文的例子用Scala编写,如果要改成Java的其实很容易。环境Kafka为0.8.2.0(CDH版本) Sc
转载 2023-08-23 22:44:15
112阅读
Kafka提供了以下4类核心APIProducer API :提供生产消息相关接口,我们通过实现该API提供的接口来自定义Producer、自定义分区策略等Consumer API :Consumer API提供消费信息相关接口,包括创建消费者、消费偏移量管理端等。Stream API:Streams APIKafka提供的一系列用来构建流处理程序的接口,通过Streams API让流处理相关的
转载 2024-02-24 11:49:11
176阅读
建表:// 创建kudu连接val kuduClient = new KuduClient.KuduClientBuilder("172.20.85.29:7051").build() // 设置表名val tableName = "kudu_test" // 创建列val colums = List[ColumnSchema]((new ColumnSchema.ColumnSc...
原创 2022-03-28 17:38:22
466阅读
包括ElasticSearch的索引库的CRUD、以及中文分词、分页查询....
原创 2019-06-21 09:22:01
6511阅读
建表:// 创建kudu连接val kuduClient = new KuduClient.KuduClientBuilder("172.20.85.29:7051").build() // 设置表名val tableName = "kudu_test" // 创建列val colums = List[ColumnSchema]((new ColumnSchema.ColumnSc...
原创 2021-06-21 17:39:03
416阅读
1 Producer API1.1 消息发送流程  Kafka 的 Producer 发送消息采用的是异步发送的方式。在消息发送的过程中,涉及到了两个线程——main 线程和 Sender 线程,以及一个线程共享变量——RecordAccumulator。main 线程将消息发送给 RecordAccumulator,Sender 线程不断从 RecordAccumulator 中拉取消
转载 2021-09-26 10:36:48
351阅读
kafka APIkafka Consumer提供两套Java API:高级Consumer API、和低级Consumer API。高级Consumer API 优点:高级API写起来简单,易用。 不需要自行去管理offset,API已经封装好了offset这块的东西,会通过zookeeper自行管理 不需要管理分区,副本等情况,系统自动管理 消费者断线后会自动根据上次记录在zookeeper中
转载 2023-12-06 20:48:37
48阅读
kafka是一个分布式的流平台,作为流平台有3个标志:    1.发布和订阅流记录;    2.以容错持久的方式存储记录流;    3.在记录流出现时处理它们。kafka主要用于2种应用:    1.构建实时流数据管道,并且在系统或应用程序之间可靠地获取数据;    2.构建实时流应用程序用于转换或
转载 2024-05-15 07:06:40
41阅读
文章目录1.Producer API1.1 消息发送流程1.2 异步发送API1.2.1 导入依赖1.2.2 添加log4j配置文件1.2.3 编写代码1.2.3.1 不带回调函数的API1.2.3.2 带回调函数的API1.3 自定义分区器2.Consumer API2.1 自动提交offset2.1.1 编写代码2.2 手动提交offset2.2.1 同步提交offset2.2.2 异步提交
7.1、KafkaAPI 分类 1、The Producer API  允许一个应用程序发布一串流式的数据到一个或者多个 Kafka Topic。    2、The Consumer API  允许一个应用程序订阅一个或多个 Topic ,并且对发布给他们的流式数据进行处理。    3、The Streams API &n
转载 2023-10-29 11:43:02
57阅读
大家好,我是tin,这是我的第22篇原创文章kafka是一个高吞吐、低延时的消息中间件。采用Java和scala语言编写,它有着非常多的优秀设计。要想学习讨论kafka的优秀理念,源码阅读必不可少。今天我们开始搭建kafka环境。目录一、JDK二、scala三、gradle四、kafka源码1. 拉取源码库2. 安装scala插件3. 启动kafka broker五、结语一、J
转载 2024-03-06 08:12:32
104阅读
  • 1
  • 2
  • 3
  • 4
  • 5