pyspark命令练习:
textFile = sc.textFile(“README.md”)
创建一个RDD
textFile.count()
返回元素个数
textFile.first()
返回第一个元素
linesWithSpark = textFile.filter(lambda line: “Spark” in line)
过滤元素
textFile.filter(lambda line: “Spark” in line).count()
过滤并计数
textFile.map(lambda line: len(line.split())).reduce(lambda a, b: a if (a>b) else b)
map对每个元素操作,reduce对新的rdd操作
wordCounts = textFile.flatMap(lambda line: line.split()).map(lambda word: (word, 1)).reduceByKey(lambda a, b: a+b)
首先拆分每行并扁平化 建立word为key,1为value的字典,合并相同key的值
textFile.map(lambda line: len(line.split()))
textFile.flatMap(lambda line: len(line.split()))
map是对每行进行split,每行返回一个list,
flatMap是对每行split,每行变成一个list,再把所有list合并成一个list(扁平化)
reduceByKey
Spark的RDD的reduceByKey 是使用一个相关的函数来合并每个key的value的值的一个算子
wordCounts.collect()
收集计算结果
spark-submit D:\spark\spark-2.0.2-bin-hadoop2.6\examples\src\main\python\pi.py
提交python写的spark任务 spark自带的例子在D:\spark\spark-2.0.2-bin-hadoop2.6\examples\src\main\