spark对本地文件中的数字进行排序并标注序号 - 代码天地

spark对本地文件中的数字进行排序并标注序号

其他 2020-03-05 00:17:58 阅读次数: 0

#!/usr/bin/env python3
#上一行的作用参考https://www.jianshu.com/p/400c612381dd

from pyspark import SparkConf, SparkContext

index = 0

def getindex():
  global index
  index+=1
  return index
def main():
  conf = SparkConf().setMatser("local[1]").setAppName("FileSort")
  sc = SparkContext(conf=conf)
  lines = sc.textFile("file:///usr/local/spark/mycode/rdd/filesort/file*.text")
  index = 0
  result1 = lines.filter(lambda line:(len(line.strip())>0 ))
  result2 = result1.map(lambda:x:(int(x.strip()),""))#去除首尾空格后变成键值对
  result3 = result2.repartition(1)
  result4 = result3.sortByKey(True)
  result5 = result4.map(lambda x:x[0])
  result6 = result5.map(lambda x:(getindex(),x))
  result6.foreach(print)
  result6.saveAsTextFile("file:///usr/local/spark/mycode/rdd/filesort/sortresult")
  if__name__=='__main__':
    main()

写博客确实有帮助
自己敲一遍体会还是不一样
来源于厦门大学数据课程自己总结

try to stay simple

发布了25 篇原创文章 · 获赞 0 · 访问量 386

私信关注

猜你喜欢

转载自blog.csdn.net/qq_45371603/article/details/104585965

spark对本地文件中的数字进行排序并标注序号

springboot对本地文件进行操作

利用nodejs对本地json文件进行增删改查

如何利用git对本地文件进行版本控制

对本地存储进行封装

利用python对本地数据进行操作

python3之对本地TXT文件进行增加，删除，修改，查看功能。

Python OpenCV对本地视频文件进行分帧保存

git放弃对本地文件的修改

Android对本地xml的文件读取

Android对本地txt的文件读取

如何在.podspec 文件中添加对本地库的依赖

036 如何对本地版进行升级 ftrack课程

利用Java对本地磁盘的文件重命名

对QTableWidget列表头序号进行重新排序

如何在Python中将所导入文件按序号进行排序？

C#调用命令行执行python脚本，这个办法可以调用python第三方模块和对本地文件进行操作

对本地图片进行数据增强操作并保存到本地

使用merge 对本地分支进行合并并进行代码提交的流程

如何找到连续数字序号中缺少的序号

IDEA中创建maven工程进行本地运行spark

使用 Wireshark 对本地 socket 通信进行数据抓包

js如何对本地地址进行截取，获取到传递过来的字段？

开发工具： git 10、对本地不规范的提交历史进行修改和调整

Yolov5对本地视频进行推理时，实现跳帧检测，提高推理效率

mciSendCommand对本地音乐的播放

Spark读取本地文件

Android下的实现对本地指定和筛选文件的目录显示

npm install对本地工程文件造成了哪些修改

对带有序号的文章进行排序

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)