kafka是数据处理的未来?

kafka能够通过kafka connect API实现流数据管道的构建,也就是ETL中的E和L,connect API利用了kafka的可扩展性,基于kafka的容错模型进行构建并且提供了一种统一的方式监控所有的连接器。
流处理转换可以通过Kafka Stream API来实现,这提供了ETL中的T,来自source的数据经过抽取后可以作为结构化的事件放到平台中,然后可以通过流处理进行任意的转换。
未来,有两种互相独立的实时处理场景:实时的MapReduce和事件驱动的微服务
1 实时的mapreduce适用于分析用例并且需要中心化的集群和自定义的打包,部署和监控。storm ,sparkstreaming,flink实现了这种模式
2 事件驱动的微服务方式,通过kafka streams API来实现,可以让任何用例都能访问流处理,这样只需添加一个嵌入式库到java应用中并搭建一个kafka集群即可

kafka 的log 方式,统一了批处理和流处理,log可以通过批处理的窗口方式进行消费,也能在每个元素抵达的时候进行检查以实现实时处理。

随着5G时代的来临,物联网的数据会暴涨,实时数据处理的需求将完全盖过批处理,所以,重点关注实时处理部分。

猜你喜欢

转载自blog.csdn.net/yyqq188/article/details/79398543