kafka分区,默认行为:
- 如果key为null,则按照一种轮询的方式来计算分区分配
- 如果key不为null则使用称之为murmur的Hash算法(非加密型Hash函数,具备高运算性能及低碰撞率)来计算分区分配。
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;
import java.util.Arrays;
import java.util.Properties;
/**
* Created by zzq on 2019/6/14.
*/
public class KafkaTest implements Runnable {
public void read(String clientId) {
producer.send(new ProducerRecord<String, String>("read",clientId, clientId));//hash到同一个partition
System.out.println("=========" + clientId);
System.out.println();
}
public volatile Producer<String, String> producer;
public volatile KafkaConsumer<String, String> customer;
//消费方法
@Override
public void run() {
customer.subscribe(Arrays.asList("read"));
//和上面的代码二选一,下面可以动态指定partition编号
//consumer.assign(Arrays.asList(new TopicPartition("read",0)));//名字为read的topic中,标号为0的partition
try {
for (; ; ) {
int count = 0;
ConsumerRecords<String, String> records = customer.poll(20);
if(records.count()==0){
continue;
}
for (ConsumerRecord<String, String> record : records) {
System.out.printf("偏移量 = %d, 值 = %s", record.offset(), record.value());
System.out.println();
count++;
}
if (count == 20) {
customer.commitAsync();//异步提交,可以提升吞吐量,如果数据不允许丢失则使用同步提交方式
}
}
} finally {
customer.close();
}
}
public Producer<String, String> producer() {
Properties properties = new Properties();
properties.put("bootstrap.servers", "10.10.210.123:9092");
// 生产者需要server接收到数据之后,要发出一个确认接收的信号
// 0 producer不需要等待任何确认的消息,吞吐量最高
// 1 意味着至少要等待leader已经成功将数据写入本地log,并不意味着所有follower已经写入
// all 意味着leader需要等待所有备份都成功写入到日志中
properties.put("acks", "0");
properties.put("retries", 0);// 重试次数
properties.put("batch.size", 16384);// producer试图批量处理消息记录。目的是减少请求次数,改善客户端和服务端之间的性能。这个配置是控制批量处理消息的字节数。如果设置为0,则禁用批处理。如果设置过大,会占用内存空间.
properties.put("linger.ms", 1);//这个参数和上面数据积压大小的参数,取优先触发的参数。如果消息保证不丢失,时效性较高,可以关闭这个参数,设置为0。
properties.put("buffer.memory", 33554432);// 缓存大小
properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
Producer<String, String> producer = null;
producer = new KafkaProducer<String, String>(properties);
return producer;
}
public KafkaConsumer<String, String> customer() {
Properties properties = new Properties();
properties.put("bootstrap.servers", "10.10.210.123:9092");
properties.put("group.id", "read");
//适合自动提交offset场景可以开启下面两个配置
//properties.put("enable.auto.commit", "true");//consumer所接收到的消息的offset将会自动同步到zookeeper
//properties.put("auto.commit.interval.ms", "1000");//consumer向zookeeper提交offset的频率,单位是毫秒
//手工提交offset
properties.put("enable.auto.commit", "false");//手动提交offset偏移量到zk
properties.put("max.poll.records", 20);//每次拉取20条
properties.put("auto.offset.reset", "earliest");//如果zk中没有offset记录就从最初的位置开始消费
properties.put("session.timeout.ms", "30000");
properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(properties);
return kafkaConsumer;
}
}
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka-clients</artifactId>
<version>0.10.2.1</version>
</dependency>
时间参数的配置:
- heartbeat.interval.ms-我程序里500ms
心跳间隔。心跳是在consumer与coordinator之间进行的。心跳是确定consumer存活,加入或者退出group的有效手段。这个值必须设置的小于session.timeout.ms,因为:
当Consumer由于某种原因不能发Heartbeat到coordinator时,并且时间超过session.timeout.ms时,就会认为该consumer已退出,它所订阅的partition会分配到同一group 内的其它的consumer上。
通常设置的值要低于session.timeout.ms的1/3。
默认值是:3000 (3s) - session.timeout.ms-我程序里2s
Consumer session 过期时间。这个值必须设置在broker configuration中的group.min.session.timeout.ms 与 group.max.session.timeout.ms之间。
其默认值是:10000 (10 s) - auto.commit.interval.ms-我程序里2s
自动提交间隔。范围:[0,Integer.MAX],默认值是 5000 (5 s) - max.poll.interval.ms
前面说过要求程序中不间断的调用poll()。如果长时间没有调用poll,且间隔超过这个值时,就会认为这个consumer,会向coordinator触发rebalance。
ps:
kafka topic的leader-partation数量必须大于0, follow-partation数量必须大于0,并且小于broker的数量。