一点传统代码思维和大数据代码思维感悟

传统代码统计单词数量
  1. 读入文本,使用 BufferedReader, FileReader,按行存入 List
  2. 针对每一行,按空格做切割,并使用 Map,key 记录为单词,value 记录为数量,并且,检查 map 是否已经包含这个 key,如果包含,则将 value 增加 1
  3. 输出 map 的 key,和 value,得到单词数量
Spark RDD 代码统计单词数量
  1. 读入文本,使用 textFile
  2. 做 flatMap 操作,单词拆成独立的元素;做 pair 操作,单词组成键值对,初始值为 1;做 reduceByKey 操作,合并同类单词,并实现数量相加
  3. 做 foreach 操作,输出单词数量

我们发现,传统代码在进行操作时,比较依赖程序员的经验,可以按照上面的方式,也可以仿照 RDD 方式,比如第二步,可以把所有单词存入一个 List,然后再遍历 List,用 Map 来计数

但是 RDD 的每一步转换,都向着终点迈进,它是类似 Map Reduce 这样的模式来进行的,每一步就像一个 DAG 的节点,完成一个工作流程,更加适合集群计算

如果习惯了传统方式开发代码,要转变到 RDD 方式开发,需要有一个转变适应的过程。最好一开始就采用画图的方式来帮助分析结果的达成。

另外,不得不提一句的是,初学者使用 Java 来学习 Spark,更能有助于理解 transformation 操作,因为 Java 对类型的强要求,能够看到每一步的参数类型表示什么意思。如果一开始使用 Python 或者 Scala,反而容易迷糊。

发布了27 篇原创文章 · 获赞 3 · 访问量 5653

猜你喜欢

转载自blog.csdn.net/candyngwh/article/details/94428020