最简单逐行读取hdfs文件

val arrayRdd = spark.sparkContext.textFile("/dmLink/domain/").collect()
for(myDomain <- arrayRdd){
  println("*********************************" + myDomain)
  })
 
 

没错就这些代码就搞定了,由此可见spark的强大能力,你不需要用java构建读取流,不仅代码多而且容易出错,看我上面的代码多简单!  spark读取的时候会有sparkrdd  和sparkDataframe  两种形式,前者是针对具体的数据,所以逐行就是用的rdd,后者是将数据抽象为表格的形式,所以不行!

猜你喜欢

转载自blog.csdn.net/qq_36066039/article/details/81003055