分区的好处
- 便于合理使用存储资源,每个partition在一个Broker上存储,可以把海量的数据按照分区切割成一块一块数据存储在多台Broker上。合理控制分区的任务,可以实现负载均衡的效果。
- 提高并行度,生产者可以以分区为单位发送数据;消费者可以以分区为单位消费数据。
Kafka的分区策略
- 指明partition的情况下,直接将指明的值作为partition值;
- 例如partition = 0,所有数据写入分区0。
- 没有指明partition值但有key的情况下,将key的hash值与topic的partition数进行取余得到partition值。
- key1的hash值=5,key2的hash值=6,topic的partition数=2,那么key1应该被写入1号分区,key2被写入0号分区
- 既没有partition值有没有key值的情况下,Kafka采用Sticky Partition(粘性分区器),会随机选择一个分区,并尽可能一直使用该分区,待该分区的batch已满或者已完成,Kafka再随机一个分区进行使用(和上一次的分区不同)
- 第一次选择0号分区,等0号分区当前批次满了(默认16K)或者linger.ms设置的时间到了,Kafka再随机一个分区进行使用(如果还是0会继续随机)
自定义分区器
实现对应的接口,并且在partition方法中书写对应的逻辑,返回值为要发送到的分区号
同时要对自定义分区器进行注册,key值为自定义分区器的全类名
© 版权声明
THE END
请登录后查看评论内容