rdd读取文件去掉表头的几种方式 - 代码天地

rdd读取文件去掉表头的几种方式

其他 2021-03-24 00:45:15 阅读次数: 0

spark读取文件时，如果是excel的结构型数据，经常会遇到有表头的情况
下面列出了三种方式去掉表头

filter判断过滤

        val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", ""))
          .map(x => x.split(",")).filter(!_.contains("id")).cache()

mapPartitions操作时迭代删除首行，效率最高

    val rdd = sc.textFile("文件路径").map(x => x.replaceAll("\"", ""))
      .mapPartitionsWithIndex((x,y)=>{
    
    
        if (x==0) y.drop(1)
        y.map(z=>{
    
    
          val ss = z.split(",")
          (ss(0),ss(1),ss(3),ss(4),ss(5),ss(6),ss(7),ss(8),ss(9),ss(10),ss(11),ss(12))
        })
      })

正则+偏函数过滤

    val r = "(\"\\d.*?)".r
    sc.textFile("文件路径").collect({
    
    
        case r(x) =>x
    }).foreach(println)

如果是csv文件，则可以用spark.read.format(“csv”).option(“header”,“true”)，直接把首行作为schema表信息

    val spark = SparkSession.builder().master("local[*]").appName("cl").getOrCreate()
    val df: DataFrame = spark.read.format("csv").option("header", "true")
      .load("hdfs://single:9000/events/data/users.csv").cache()
    df.show(3)

猜你喜欢

转载自blog.csdn.net/xiaoxaoyu/article/details/114316308

rdd读取文件去掉表头的几种方式

Properties读取文件的几种方式

JAVA几种读取文件的方式

读取资源的文件的几种方式

shell读取文件的几种方式

Java读取文件的几种方式

RDD的几种创建方式

读取Spring配置文件的几种方式

常见的几种读取.properties文件的方式

读取配置文件的几种方式

java读取文件内容几种方式

Java读取Properties文件的几种方式

Spring读取配置文件的几种方式

Python读取WAV文件的几种方式整理

Java读取resource文件/路径的几种方式

读取配置文件properties的几种方式

Java读取文件内容的几种方式

java 读取properties文件的几种方式

SpringBoot读取Resource下文件的几种方式

Spring配置文件的几种读取方式

Go 语言读取文件的几种方式

【SpringBoot系列】读取yml文件的几种方式

Spark创建RDD的几种方式

Java 读取 .properties 文件的几种方式 Java 读取 .properties 配置文件的几种方式

Spark的RDD 文件读取与保存

java 读取文件的几种方式和通过url获取文件

java读取文件内容常见几种方式

Spring读取配置文件，获取bean的几种方式

Java 读取 .properties 配置文件的几种方式

springboot 读取配置文件内容的几种方式

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)