Spark Streaming--1 文件默认数据源

版权声明:未经同意,不得转载。 https://blog.csdn.net/qq_36235275/article/details/82501521

文件数据流:能够读取所有HDFS API兼容的文件系统文件,通过fileStream方法进行读取 
       Spark Streaming 将会监控 dataDirectory 目录并不断处理移动进来的文件,记住目前不支持嵌套目录。

  • 文件需要有相同的数据格式
  • 文件进入 dataDirectory的方式需要通过移动或者重命名来实现。
  • 一旦文件移动进目录,则不能再修改,即便修改了也不会读取新数据。 
           如果文件比较简单,则可以使用 streamingContext.textFileStream(dataDirectory)方法来读取文件。文件流不需要接收器,不需要单独分配CPU核。
## 导入相应的jar包
scala> import org.apache.spark.streaming._
## 创建StreamingContext操作对象
scala> val ssc = new StreamingContext(sc,Seconds(5))
scala> val lines = ssc.textFileStream("hdfs://master:9000/spark/data")
scala> val wordCount = lines.flatMap(_.split("\t")).map(x=>(x,1)).reduceByKey(_+_)
scala> wordCount.print
scala> ssc.start

[root@master ~]# hadoop fs -rm -r ./data1 /spark/data1 //上传数据至该目录

猜你喜欢

转载自blog.csdn.net/qq_36235275/article/details/82501521