kafka

高吞吐量、分布式的发布-订阅消息系统

特性

消息持久化、动态扩容、负载均衡、高吞吐量、可拓展、多语言客户端、kafkastream支持、多种安全机制、可备份、轻量级、可压缩数据。

消息系统、应用服务监控系统（kafka+elk）、网站用户行为跟踪（分析日志）、流处理数据。

1条消息只能被一个消费者处理，当消费者组只有1个是，kafka就是队列模型。

如果所有的消费者都属于不同的消费者组，即每个消费者组只能有1个消费者，这样某条消息就会被每个消费者订阅到，kafka变为发布-订阅模型。

1个topic是一类消息，根据设置可以被分成多个partition，每个partition又由多个文件组成，每条消息在文件中的位置成为offset（long型），消息写入时追加到文件尾部，由于是顺序写磁盘，因此效率非常高（比随机写内存快），从而保证高吞吐。

1条消息属于一个topic，而一个topic可能由多个partition存储，每个partition内部是有序的，所以要保证某个topic被顺序消费，该topic只能有1个partition。

每个broker会在zookeeper中注册节点，zk负责保存节点的主题、分区状态、消费组、消费进度、分区的所有者等信息。

Kafka 提供两种删除老数据的策略，一是基于消息已存储的时间长度，二是基于分区的大小。