学习感悟(1)配置环境最费劲(2)动手写,动手写,动手写WordCountpackage wordcountimport org.apache.spark.{SparkConf, SparkContext}/** * @author CBeann * @create 2019-08-10 18:02 */object WordCount { def main(args: Array[Str
原创 2022-09-13 11:44:57
145阅读
今天主要简单一下kafka的读写,我写了java,scala两个版本的,写法比较老,但都能用,已经测试过了,直接上代码吧;java版本:package com.cn.kafka;import java.util.Arrays;import java.util.HashMap;import java.util.Map;import java.util.Properties;i...
原创 2021-08-16 15:21:09
345阅读
今天主要简单一下kafka的读写,我写了java,scala两个版本的,写法比较老,但都能用,已经测试过了,直接上代码吧; java版本: package com.cn.kafka; import java.util.Arrays; import java.util.HashMap; import java.util.Map; import java.util.Properties; imp
原创 2021-08-16 15:21:50
448阅读
本文目的研究了一下Kafka Produce/Consumer 的API,发现Consumer API的使用并没有那么的straight forward。折腾了2天后,终于摸到了一些门道,这里记录下怎样使用High Level Consumer API来接收并处理一个Topic中的消息。本文的例子用Scala编写,如果要改成Java的其实很容易。环境Kafka为0.8.2.0(CDH版本) Sc
转载 2023-08-23 22:44:15
112阅读
Kafka版本选择 我们这次分析的Kafka的版本是0.10.1版本,现在最新的Kafak版本2.5.x了。但是我们分析的Kafka的核心源码流程没多大变化。选择分析老版本的一个原因是:我个人的习惯一般去分析一个技术的源码都不挑最新的版本,都会挑老一点的版本,正常情况下老一点的版本代码结构会更清晰,因为像这种开源的项目,很多人都会去提交一些patch,但是提交patch的开发人员水平参差
package mydemo import org.apache.spark.{SparkConf, SparkContext} object MyWordCountDemo {   def main(args: Array[String]): Unit = {  
原创 2018-02-28 10:18:01
1697阅读
大家好,我是tin,这是我的第22篇原创文章kafka是一个高吞吐、低延时的消息中间件。采用Java和scala语言编写,它有着非常多的优秀设计。要想学习讨论kafka的优秀理念,源码阅读必不可少。今天我们开始搭建kafka环境。目录一、JDK二、scala三、gradle四、kafka源码1. 拉取源码库2. 安装scala插件3. 启动kafka broker五、结语一、J
转载 2024-03-06 08:12:32
104阅读
在windows下,使用idea 阅读kafka2.x源代码 1.前提必读 kafka ReadMehttps://github.com/apache/kafka/blob/trunk/README.mdApache KafkaSee our web site for details on the project.You need to have Gradl
产生背景:由于工作需要,目前现有查询业务,其他厂商数据库无法支持,高效率的查询响应速度,于是和数据总线对接,实现接入数据,自己进行数据结构化处理。技术选型:SparkStreaming和Kafka和ElasticSearch本人集群:SparkStreaming 版本2.3,KafkaScala版本2.11-Kafka版本0.10.0.0 (Kafka_2.11-0.10.0.0.jar)&nb
转载 2023-09-04 10:24:18
87阅读
业务:首先使用flink从kafka中获取消息,这个消息对应着一个关于直播间的具体信息,当然过来的是一个JSON;之后对数据进行流式处理,存入clickhouse;最后通过kafka将数据更新的情况传递给下游服务。main方法:流式处理直接用main启动,自己就跟那儿跑,但是遇到报错会停止;并行度这块儿可以按需设置;execute方法必须执行,不运行不了。public static void m
转载 2024-03-20 14:12:21
158阅读
每一个partition目录下的文件被平均切割成大小相等(默认一个文件是500兆,可以手动去设置)的数据文件, 每一个数据文件都被称为一个段(segment file),但每个段消息数量不一定相等,这种特性能够使得老的segment可以被快速清除。 默认保留7天的数据。   每个partition下都会有这些每500兆一个每500兆一个(当然在上面的测试中我们将它设置为了1G一个)的se
转载 2024-03-04 02:27:09
48阅读
Maven组件如下: 官网代码如下: 运行以上代码出现如下错误等: Exception in thread "main" org
原创 2021-07-31 16:12:50
805阅读
Producer最简配置 metadata.broker.list参数指定broker地址,这里不需要填上所有的broker地址,但是如果只一个,这个broker挂掉后就无法往topic中写入信息,一般写入2-3个broker地址。 serializer.class指定序列化的方...
转载 2015-08-18 17:29:00
47阅读
2评论
Producer最简配置 metadata.broker.list参数指定broker地址,这里不需要填上所有的broker地址,但是如果只一个,这个broker挂掉后就无法往topic中写入信息,一般写入2-3个broker地址。 serializer.class指定序列化的方...
转载 2015-08-18 17:29:00
103阅读
yahoo 开发了一款用来管理 Kafka 集群的工具: CMAK (Cluster Manager for Apache Kafka, previously known as Kafka Manager),使用这个工具需要下载源码并编译,而其编译又依赖于 sbt,网上很多博客都是以前版本的安装使用,本人最近正好有这一块的实践
原创 2022-02-18 17:10:03
414阅读
未指定 server.properties 直接运行时,报错信息如下: > Task :core:Kafka.main() FAILED USAGE: java [options] KafkaServer server.properties [--override property=value]* ...
转载 2021-09-07 10:34:00
597阅读
2评论
Scala作为一门多范式的编程语言,与Kafka的结合在实时流处理中表现出色。Scala的函数式编程特性和强大的类型系统使其能够高效处理Kafka的高吞吐量数据流。Kafka的分布式架构与Scala的并发模型(如Akka Streams)天然契合,适合构建低延迟、高可靠性的实时数据处理管道。通过Scala的类型安全和Kafka的分布式能力,可构建高扩展性的实时系统。具体技术选型需结合业务场景,如低延迟优先选Alpakka,批流一体则考虑Spark。
转载 13天前
345阅读
一、kafka的存储机制kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。所谓的分区其实就是在kafka对应存储目录下创建的文件夹,文件夹的名字是主题名加上分区编号,编号从0开始。1、segment所谓的segment其实就是在分区对应的文件夹下产生的文件。一个分区会被划分成大小相等的若干segment,这样一方面保证了分区的数据被
转载 10月前
86阅读
一、概述1、采用slf4j作为日志API,采用logback作为日志输出工具,用slf4j桥接方式替换掉log4j和commons-logging。2、采用trace(追踪)、debug(调试)、info(信息)、warn(警告)、error(错误)、fatal(致命)共6种日志级别。3、采用dev(开发环境)、test(测试环境)、production(生产环境)等不同的日志配置,根据环境变量自
Scala调用Kafka的生产者和消费者Demo,以及一些配置参数整理kafka简介Kafka是apache开源的一款用Scala编写的消息队列中间件,具有高吞吐量,低延时等特性。Kafka对消息保存时根据Topic进行归类,发送消息者称为Producer,消息接受者称为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)称为broker。无论是kafka集群,还
转载 2024-03-26 12:39:16
27阅读
  • 1
  • 2
  • 3
  • 4
  • 5