kafka分区,默认行为:
  1. 如果key为null,则按照一种轮询的方式来计算分区分配
  2. 如果key不为null则使用称之为murmur的Hash算法(非加密型Hash函数,具备高运算性能及低碰撞率)来计算分区分配。
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;

import java.util.Arrays;
import java.util.Properties;

/**
 * Created by zzq on 2019/6/14.
 */
public class KafkaTest implements Runnable {
    public void read(String clientId) {
        producer.send(new ProducerRecord<String, String>("read",clientId, clientId));//hash到同一个partition
        System.out.println("=========" + clientId);
        System.out.println();
    }

    public volatile Producer<String, String> producer;

    public volatile KafkaConsumer<String, String> customer;

    //消费方法
    @Override
    public void run() {
        customer.subscribe(Arrays.asList("read"));
     //和上面的代码二选一,下面可以动态指定partition编号
     //consumer.assign(Arrays.asList(new TopicPartition("read",0)));//名字为read的topic中,标号为0的partition
        try {
            for (; ; ) {
                int count = 0;
                ConsumerRecords<String, String> records = customer.poll(20);
          if(records.count()==0){
             continue;
            }
                for (ConsumerRecord<String, String> record : records) {
                    System.out.printf("偏移量 = %d, 值 = %s", record.offset(), record.value());
                    System.out.println();
                    count++;
                }
                if (count == 20) {
                    customer.commitAsync();//异步提交,可以提升吞吐量,如果数据不允许丢失则使用同步提交方式
                }
            }
        } finally {
            customer.close();
        }
    }

    public Producer<String, String> producer() {
        Properties properties = new Properties();
        properties.put("bootstrap.servers", "10.10.210.123:9092");
        // 生产者需要server接收到数据之后,要发出一个确认接收的信号
        // 0 producer不需要等待任何确认的消息,吞吐量最高
        // 1 意味着至少要等待leader已经成功将数据写入本地log,并不意味着所有follower已经写入
        // all 意味着leader需要等待所有备份都成功写入到日志中
        properties.put("acks", "0");
        properties.put("retries", 0);// 重试次数
        properties.put("batch.size", 16384);// producer试图批量处理消息记录。目的是减少请求次数,改善客户端和服务端之间的性能。这个配置是控制批量处理消息的字节数。如果设置为0,则禁用批处理。如果设置过大,会占用内存空间.
        properties.put("linger.ms", 1);//这个参数和上面数据积压大小的参数,取优先触发的参数。如果消息保证不丢失,时效性较高,可以关闭这个参数,设置为0。
        properties.put("buffer.memory", 33554432);// 缓存大小
        properties.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        properties.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");
        Producer<String, String> producer = null;
        producer = new KafkaProducer<String, String>(properties);
        return producer;
    }

    public KafkaConsumer<String, String> customer() {
        Properties properties = new Properties();
        properties.put("bootstrap.servers", "10.10.210.123:9092");
        properties.put("group.id", "read");
        
        //适合自动提交offset场景可以开启下面两个配置
        //properties.put("enable.auto.commit", "true");//consumer所接收到的消息的offset将会自动同步到zookeeper
        //properties.put("auto.commit.interval.ms", "1000");//consumer向zookeeper提交offset的频率,单位是毫秒

        //手工提交offset
        properties.put("enable.auto.commit", "false");//手动提交offset偏移量到zk
        properties.put("max.poll.records", 20);//每次拉取20条

        properties.put("auto.offset.reset", "earliest");//如果zk中没有offset记录就从最初的位置开始消费
        properties.put("session.timeout.ms", "30000");
        properties.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        properties.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        KafkaConsumer<String, String> kafkaConsumer = new KafkaConsumer<>(properties);
        return kafkaConsumer;
    }
}
<dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>0.10.2.1</version>
</dependency>

 

 

时间参数的配置:

  • heartbeat.interval.ms-我程序里500ms
    心跳间隔。心跳是在consumer与coordinator之间进行的。心跳是确定consumer存活,加入或者退出group的有效手段。这个值必须设置的小于session.timeout.ms,因为:
    当Consumer由于某种原因不能发Heartbeat到coordinator时,并且时间超过session.timeout.ms时,就会认为该consumer已退出,它所订阅的partition会分配到同一group 内的其它的consumer上。
    通常设置的值要低于session.timeout.ms的1/3。
    默认值是:3000 (3s)
  • session.timeout.ms-我程序里2s
    Consumer session 过期时间。这个值必须设置在broker configuration中的group.min.session.timeout.ms 与 group.max.session.timeout.ms之间。
    其默认值是:10000 (10 s)
  • auto.commit.interval.ms-我程序里2s
    自动提交间隔。范围:[0,Integer.MAX],默认值是 5000 (5 s)
  • max.poll.interval.ms
    前面说过要求程序中不间断的调用poll()。如果长时间没有调用poll,且间隔超过这个值时,就会认为这个consumer,会向coordinator触发rebalance。

 

ps:

kafka  topic的leader-partation数量必须大于0, follow-partation数量必须大于0,并且小于broker的数量。