目录
第一步:下载代码
第二步:启动服务
第三步:创建主题
第四步:发送消息
第五步 :启动消费者
第六步:设置多broker的集群
第七步:使用Kafka Connect来导入/导出数据
第八步:使用Kafka Streams来处理数据
本教程假定您正在启动的环境中并没有现有的Kafka或Zookeeper数据。由于基于Unix和Windows平台的Kafka启动脚本不同,因此在Windows平台上使用bin\windows而不是bin/,而且脚本扩展名更改为.bat。、
第一步:下载代码
下载 2.0.0的release版并且解压
>
tar
-xzf kafka_2.11-2.0.0.tgz
>
cd
kafka_2.11-2.0.0
第二步:启动服务
Kafka 用到了Zookeeper,所以你需要首先启动一个ZooKeeper 服务,如果你还没有一个。您可以使用与Kafka打包的便利脚本来获取一个快速上手的单节点ZooKeeper 实例。
> bin
/zookeeper-server-start
.sh config
/zookeeper
.properties
[2013-04-22 15:01:37,495] INFO Reading configuration from: config
/zookeeper
.properties (org.apache.zookeeper.server.quorum.QuorumPeerConfig)
- ...
现在启动Kafka服务
> bin
/kafka-server-start
.sh config
/server
.properties
[2013-04-22 15:01:47,028] INFO Verifying properties (kafka.utils.VerifiableProperties)
[2013-04-22 15:01:47,051] INFO Property socket.send.buffer.bytes is overridden to 1048576 (kafka.utils.VerifiableProperties)
...
第三步:创建主题
让我们用一个分区创建一个名为“test”的主题,只创建一个副本:
> bin
/kafka-topics
.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic
test
我们运行list topic命令,可以看到这个主题:
> bin
/kafka-topics
.sh --list --zookeeper localhost:2181
test
或者,也可以不用手动创建主题,也可以在不存在的主题发布时配置您的brokers 来自动创建主题。
第四步:发送消息
Kafka附带了一个命令行客户端,该客户端将从文件或标准输入获取输入,并将其作为消息发送到Kafka集群。默认情况下,每一行将作为单独的消息发送。
运行生产者,然后键入一些消息到控制台发送到服务器。
> bin
/kafka-console-producer
.sh --broker-list localhost:9092 --topic
test
This is a message
This is another message
第五步 :启动消费者
Kafka 还有一个命令行的消费者,它将把消息转储到标准输出。
> bin
/kafka-console-consumer
.sh --bootstrap-server localhost:9092 --topic
test
--from-beginning
This is a message
This is another message
如果上面的每个命令都在不同的终端中运行,那么现在应该能够向生产者终端中输入消息,并看到消息出现在消费者终端中。
所有命令行工具都有其他选项;在没有参数的情况下运行命令将显示更详细地记录它们的使用信息。
第六步:设置多broker的集群
到目前为止,我们一直在使用单个broker,但这并不好玩。对于Kafka,单个broker只是一个大小的集群,所以除了启动几个broker实例之外,没有什么变化。但是为了得到它的感觉,让我们把我们的集群扩展到三个节点(仍然在我们的本地机器上)。
首先,我们为每个broker创建一个配置文件(在Windows上使用copy命令):
>
cp
config
/server
.properties config
/server-1
.properties
>
cp
config
/server
.properties config
/server-2
.properties
现在编辑这些新文件并设置以下属性:
config/server-1.properties:
broker.id=1
listeners=PLAINTEXT://:9093
log.dirs=/tmp/kafka-logs-1
config/server-2.properties:
broker.id=2
listeners=PLAINTEXT://:9094
log.dirs=/tmp/kafka-logs-2
broker.id
属性是集群中每个节点的唯一和永久名称。我们只能重写端口和日志目录,因为我们在同一台机器上运行所有这些,并且我们希望防止所有broker尝试在同一端口上注册或重写彼此的数据。
我们已经有Zookeeper ,并且我们的单一节点已经启动,所以我们只需要再启动两个新节点:
> bin
/kafka-server-start
.sh config
/server-1
.properties &
...
> bin
/kafka-server-start
.sh config
/server-2
.properties &
...
现在创建一个具有3个复制因子的新主题:
> bin
/kafka-topics
.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 1 --topic my-replicated-topic
好吧,但是现在我们有了一个集群,我们怎么知道哪个broker在做什么?通过运行“describe topics”命令来查看:
> bin
/kafka-topics
.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic
Topic:my-replicated-topic PartitionCount:1 ReplicationFactor:3 Configs:
Topic: my-replicated-topic Partition: 0 Leader: 1 Replicas: 1,2,0 Isr: 1,2,0
下面是对输出的解释。第一行给出了所有分区的摘要,其它行给出关于一个分区的信息。因为这个主题只有一个分区,所以只有一行。
- leader是负责给定分区的所有读写的节点。leader是分区里的所有节点随机选出来的。
- “replicas”是复制这个分区的日志的节点的列表,而不管它们是否是前导节点,或者即使它们当前还活着
- “ISR”是一组“同步”复制品。这是当前活着并复制到领导者的复制列表的子集。
请注意,在我的示例中,节点1是这个主题的唯一分区的leader 。
我们可以在之前创建的主题"test"上运行相同的命令来查看它的位置:
> bin
/kafka-topics
.sh --describe --zookeeper localhost:2181 --topic
test
Topic:
test
PartitionCount:1 ReplicationFactor:1 Configs:
Topic:
test
Partition: 0 Leader: 0 Replicas: 0 Isr: 0
因此,毫无疑问的是,原来的主题没有副本,在服务器0上,是我们创建集群时的唯一服务器。
让我们向我们的新主题发布几条消息:
> bin
/kafka-console-producer
.sh --broker-list localhost:9092 --topic my-replicated-topic
...
my
test
message 1
my
test
message 2
^C
现在让我们消费这些信息:
> bin
/kafka-console-consumer
.sh --bootstrap-server localhost:9092 --from-beginning --topic my-replicated-topic
...
my
test
message 1
my
test
message 2
^C
现在让我们测试一下容错性。broker 1当前是leader,所以我们kill掉它:
>
ps
aux |
grep
server-1.properties
7564 ttys002 0:15.91
/System/Library/Frameworks/JavaVM
.framework
/Versions/1
.8
/Home/bin/java
...
>
kill
-9 7564
在Windows上:
> wmic process where
"caption = 'java.exe' and commandline like '%server-1.properties%'"
get processid
ProcessId
6016
> taskkill
/pid
6016
/f
leader已经切换到slaves中的一个,节点1不再在同步副本集中:
> bin
/kafka-topics
.sh --describe --zookeeper localhost:2181 --topic my-replicated-topic
Topic:my-replicated-topic PartitionCount:1 ReplicationFactor:3 Configs:
Topic: my-replicated-topic Partition: 0 Leader: 2 Replicas: 1,2,0 Isr: 2,0
但是,即使最初通过leader写下的消息,仍然可以用于消费:
> bin
/kafka-console-consumer
.sh --bootstrap-server localhost:9092 --from-beginning --topic my-replicated-topic
...
my
test
message 1
my
test
message 2
^C
第七步:使用Kafka Connect来导入/导出数据
从控制台写入数据并将其写入回控制台是一个方便的开始,但是您可能希望使用来自其他源的数据或将数据从Kafka导出到其他系统。对于许多系统,您可以使用Kafka Connect来导入或导出数据,而不是编写自定义集成代码。
Kafka Connect是一个包含Kafka的工具,它将数据导入和导出到Kafka。它是一种可扩展的工具,它运行连接器,实现与外部系统交互的自定义逻辑。在这个快速入门中,我们将看到如何使用简单的连接器运行Kafka Connect,这些连接器将数据从文件导入到Kafka主题,并将数据从Kafka主题导出到文件。
首先,我们将创建一些数据来测试:
>
echo
-e
"foo\nbar"
>
test
.txt
或者在Windows上:
>
echo
foo>
test
.txt
>
echo
bar>>
test
.txt
接下来,我们将启动两个在独立模式下运行的connectors ,这意味着它们运行在一个单一的、本地的、专用的进程中。我们提供三个配置文件作为参数。第一个始终是Kafka Connect进程的配置,包含常见的配置,比如要连接的Kafka broker和数据的序列化格式。其余的配置文件都指定要创建的connector 。这些文件包括唯一的connector 名称、要实例化的connector 类以及connector 所需的任何其他配置。
> bin
/connect-standalone
.sh config
/connect-standalone
.properties config
/connect-file-source
.properties config
/connect-file-sink
.properties
Kafka中包含的这些示例配置文件使用您先前启动的默认本地集群配置,并创建两个connector:第一个是源connector,从输入文件中读取行,并生成每个到Kafka主题的行,第二个是接收端connector,读取来自Kafka主题的消息,并将其作为输出文件中的行生成。
在启动过程中,您会看到许多日志消息,包括一些指示connector正在实例化的消息。一旦Kafka Connect进程开始,源connector 就应该开始从test.txt读取行并将它们生成到主题connect-test中
,而接收端connector 应该开始从主题connect-test
读取消息并将它们写入文件test.sink.txt。我们可以通过检查输出文件的内容来验证数据已经通过整个管道传递:
>
more
test
.sink.txt
foo
bar
注意,数据存储在Kafka主题connect-test
中,因此我们还可以运行控制台的消费者以查看主题中的数据(或者使用用户自定义代码对其进行处理):
> bin
/kafka-console-consumer
.sh --bootstrap-server localhost:9092 --topic connect-
test
--from-beginning
{
"schema"
:{
"type"
:
"string"
,
"optional"
:
false
},
"payload"
:
"foo"
}
{
"schema"
:{
"type"
:
"string"
,
"optional"
:
false
},
"payload"
:
"bar"
}
...
connector会继续处理数据,因此我们可以将数据添加到文件中,并看到它通过pipeline:
>
echo
Another line>>
test
.txt
你应该可以从消费者的控制台和目的端文件中看到这些行。
第八步:使用Kafka Streams来处理数据
Kafka Streams是用于构建关键任务的实时应用程序和微服务的客户机库,其中输入和/或输出数据存储在Kafka集群中。Kafka Streams结合了编写和部署标准Java和Scala应用程序在客户端上的简单性,以及Kafka 服务器端集群技术的好处,使这些应用程序具有高度可伸缩性、弹性、容错性、分布式性以及更多。这个快速入门示例将演示如何运行在这个库中编码的流式应用程序。