kafka+pyspark - 代码天地

kafka+pyspark

其他 2019-09-29 18:11:15 阅读次数: 0

安装kafka

kafka 三部分 server producer consumer

pyspark 监控

一、环境部署

1.导入对应版本的spark-streaming-kafka-*-*.jar

2.相应jar追加到SPARK_DIST_CLASSPATH

二、kafka+spark测试

1.启动kafka的server和producer

2.代码

from pyspark.streaming.kafka import KafkaUtils

if __name__ == "__main__":
if len(sys.argv) != 3:
print("Usage: kafka_wordcount.py <zk> <topic>", file=sys.stderr)
exit(-1)

扫描二维码关注公众号，回复： 7391339 查看本文章

sc = SparkContext(appName="PythonStreamingKafkaWordCount")
ssc = StreamingContext(sc, 1)

zkQuorum, topic = sys.argv[1:]
kvs = KafkaUtils.createStream(ssc, zkQuorum, "spark-streaming-consumer", {topic: 1})
lines = kvs.map(lambda x: x[1])
counts = lines.flatMap(lambda line: line.split(" ")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a+b)
counts.pprint()

ssc.start()
ssc.awaitTermination()

3.启动开始监控生产者即时计算词频数

4.注意各个版本匹配问题

猜你喜欢

转载自www.cnblogs.com/xiennnnn/p/11609163.html

kafka+pyspark

kafka pyspark（集群zookeeper）

PySpark Structured Streaming kafka示例

pyspark streaming简介和消费 kafka示例

基于pyspark的Spark Streaming+Kafka编程实践

pyspark系列--连接pyspark

PySpark操作

pyspark LDA

pyspark NaiveBayes

pyspark 浅析

pyspark 报错

mapreduce(pyspark)

PySpark的原理

pyspark streaming

pypy on PySpark

PySpark教程

PySpark（一）

pyspark -- DataFrame

PySpark DataFrame

pyspark logistic

pyspark的用法

pyspark与Mongodb

pyspark API

pyspark：GBDT

pyspark:FPgrowth

PySpark实践

pyspark 操作

PySpark笔记

pyspark ml

Pythonspark pyspark

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)