Kafka相关面试题

2021年04月15日留言

不丢和不重，本身就是矛盾的

chatGPT的回答:

Kafka 采用了多种方式来确保消息不会丢失：

持久化：Kafka 的消息是持久化存储的，即使在写入到磁盘之前，数据也会先写入到操作系统的页面缓存中，这样即使发生系统故障，也可以通过重新加载数据来恢复。

复制：Kafka 通过多个副本的方式来确保消息的可靠性。每个分区都可以配置多个副本，一个分区的副本分布在不同的 broker 上，如果一个 broker 故障，其他 broker 上的副本可以继续提供服务。Kafka 的副本同步策略有三种，分别是全部同步、一半同步、异步。

消费者位移：Kafka 通过记录消费者的位移信息来确保消息不会重复消费或漏消费。消费者可以提交自己已经消费过的消息的位移，这样即使消费者在消费过程中发生故障，也可以通过位移信息来恢复消费进度。

综上所述，Kafka 通过持久化、复制和消费者位移等多种机制来保证消息不会丢失。

生产者数据的不丢失: ack机制
消费者数据的不丢失: offset commit 来保证数据的不丢失，Kafka自己记录了每次消费的offset数值，下次继续消费的时候，会接着上次的offset进行消费
集群中broker的数据不丢失: 一般都会设置有replication（副本）的个数，生产者写入的时候首先根据分发策略（有partition按partition，有key按key，都没有轮询）写入到leader中，follower（副本）再跟leader同步数据，这样有了备份，也可以保证消息数据的不丢失