rdd读取文件去掉表头的几种方式

spark读取文件时,如果是excel的结构型数据,经常会遇到有表头的情况
下面列出了三种方式去掉表头

  • filter判断过滤
        val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", ""))
          .map(x => x.split(",")).filter(!_.contains("id")).cache()
  • mapPartitions操作时迭代删除首行,效率最高
    val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", ""))
      .mapPartitionsWithIndex((x,y)=>{
    
    
        if (x==0) y.drop(1)
        y.map(z=>{
    
    
          val ss = z.split(",")
          (ss(0),ss(1),ss(3),ss(4),ss(5),ss(6),ss(7),ss(8),ss(9),ss(10),ss(11),ss(12))
        })
      })
  • 正则+偏函数过滤
    val r = "(\"\\d.*?)".r
    sc.textFile("文件路径").collect({
    
    
        case r(x) =>x
    }).foreach(println)
  • 如果是csv文件,则可以用spark.read.format(“csv”).option(“header”,“true”),直接把首行作为schema表信息
    val spark = SparkSession.builder().master("local[*]").appName("cl").getOrCreate()
    val df: DataFrame = spark.read.format("csv").option("header", "true")
      .load("hdfs://single:9000/events/data/users.csv").cache()
    df.show(3)

猜你喜欢

转载自blog.csdn.net/xiaoxaoyu/article/details/114316308