spark编程笔记wholeTextFiles使用\n作为分隔符

其他 2018-11-22 08:25:40 阅读次数: 0

一、使用wholeTextFiles使用\n作为分隔符时问题：

wordcount.txt（文件中没有多余空格&\n）:

hadoop
hbase
spark

执行的spark程序：

val word=sc.wholeTextFiles("E:\\new 1.txt")
word.flatMap(_._2.split("\n")) .map(x=>(x,1)).foreach(println(_))

输出为：

 ,1)
 ,1)
 (spark,1)

解决方法：突然想到回车为\r\n，因此使用\r\n作为分隔符即可。

二、spark程序去除源文件第一行字段名称：

val header=files.first()
val file=files.filter(x=>x!=header)
val splitFile = file.map(x => x.split(" ")).filter(arr => arr.length == 3)

三、scala的异常处理

try{
 println("daydayup")
}catch{
 case ex: FileAlreadyExistsException => println(路径已存在")
 case ex: Throwable => println("未知错误" + ex)
}

处理异常需要使用case模式匹配

猜你喜欢

转载自blog.csdn.net/qq_16760101/article/details/84315646

spark编程笔记wholeTextFiles使用\n作为分隔符

多个符号作为分隔符

HTML分隔符的使用

如何解决使用hive将多字符作为分隔符的数据入库的问题

解决Java中使用“.“和“|“作为分隔符分割字符串无法拆分的问题

word分页和分隔符的使用

Linux：IFS分隔符的使用

Java Split用竖线作为分隔符

hive编程指南学习笔记之一：建表语句以及分隔符定义

文件分隔符

awk 分隔符

Hive分隔符

分隔符

插入分隔符

csv分隔符

分隔符/和\\

打印分隔符

九、分隔符

java分隔符

详解hive的列分隔符和行分隔符的使用

awk的学习笔记分隔符 -F "[, ]"

关于日志分隔符，不要使用^

Netty分隔符解码器的使用

split分隔符无法使用解决办法

如何让 JavaScript 的 split 使用多个分隔符

*文件操作类1（基本操作）分隔符的使用

分隔符与定长解码器的使用

使用内部字段分隔符读取文件

使用sed 为时间增加空格分隔符

JS 使用split分割但保留分隔符返回数组

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)