sparksql查询完数据保存到一个文件中，并且不出现乱码 - 代码天地

sparksql查询完数据保存到一个文件中，并且不出现乱码

其他 2020-03-01 22:42:16 阅读次数: 0

实例代码：

object movies2{

  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder()
      .appName("movies")
      .master("local[*]")
      .getOrCreate()

    val lines: Dataset[String] = spark.read.textFile("file:///C:\\Users\\lenovo\\Desktop\\app-2019-12-12.log")
    import spark.implicits._
//    21022734,妈妈的朋友,2019-05-15 08:58:05,5.2,搜秀影院
    val movies: Dataset[(Int, String, Int, Int, Double, String)] = lines.map(x => {
      val s: Array[String] = x.split(",")
      val userId: Int = s(0).toInt
      val movieName: String = s(1)
      //2019052011
      val day: Int = DateUtils.parseToMin(s(2)).substring(0,6).toInt
      val hours: Int = DateUtils.parseToMin(s(2)).substring(8, 10).toInt
      val score: Double = s(3).toDouble
      val cinema: String = s(4)
      (userId, movieName, day, hours, score, cinema)
    })

    val df: DataFrame = movies.toDF("userId","movieName","day","hours","score","cinema")
    df.createTempView("movies")
//    val r: DataFrame = spark.sql("select * from movies")
//    r.show(30)
    val rs1: DataFrame = spark.sql("select hours,count(*) as count from movies where day = 201912 group by hours order by hours")
    println("某月（12月）内电影观看时间点分布：")
    rs1.show(24)

    val rs2: DataFrame = spark.sql("select cinema,count(*) as Box_office from movies where day = 201912 group by cinema order by Box_office desc")
    println("某月（12月）电影院票房统计")
    rs2.show()
    //将分析后的数据写到一个文件中，调用coalesce方法传入分区数
    rs2.coalesce(1).write.format("csv").save("/fengrui")
    //或者下面这个
    rs2.coalesce(1).write.csv("/fengrui2")
    rs2.coalesce(1).write.json("/fengrui2")

  }

}

我的结果放到hdfs上了，只生成一个文件，不调用coalesce的话会按照并行度来切分文件，会落地好多文件，看起来不方便

，json或者CSV格式数据不会有乱码出现

蔡培育的小弟

发布了85 篇原创文章 · 获赞 3 · 访问量 2516

私信关注

猜你喜欢

转载自blog.csdn.net/Romantic_sir/article/details/103570808

sparksql查询完数据保存到一个文件中，并且不出现乱码

Spark把RDD数据保存到一个单个文件中

sparksql读取hive中的数据保存到hdfs中

将视频中所有图片保存到一个文件夹中

Python Matplotlib 画多个图保存到一个pdf文件中

序列化保存到一个文件

爬取一个网页保存到本地文件

转 Jmeter如何把响应数据的结果保存到本地的一个文件

【网络编程】输入一个网址，获取网页内容，并保存到一个html文件中

利用递归算法，把一个文件的所有文件都保存到数据库中，并在控制台打印出来

jmeter参数化- 提取一个或多个响应值保存到csv文件中，并通过csv数据文件设置进行调用

读一个文件夹内的所有文件名字保存到一数组中

用DOS命令Dir把一个文件夹里的文件名保存到txt中

java 读取目录下所有word 文档及子目录文档中的图片，并且保存到一个地方

利用正则表达式读取txt文件中的邮箱,电话号码,url地址,手机号,将数据一行一个保存到一个新的文件中去

爬虫采集到的数据保存到CSV文件中乱码问题的解决办法

dialog在关闭的时候会刷新页面，并且地址后面多加了一个问号，导致数据查询不出来的解决方法

android 把数据保存到文件中的实例

查询一个表中名字相同的数据，并且显示出来,并且显示重复个数

读取.properties配置文件并保存到另一个.properties文件内

读取文件内容——读取一个二进制文件，然后保存到另外一个文件

将SparkSql查询到的结果保存到本地

计算公元纪年法总天数及星期几(用自己的一个思路)查询日历保存到文本文件

php抓取数据并且保存到Excel

一个类实现Java截屏并保存到指定文件夹

MongoDB - 将查询结果保存到excel文件中

monodb，根据条件查询到指定数据，保存到另一张表中

在linux上scrapyd部署scrapy项目时出现service_identity，并且不能识别其中的一个opentype模块

windows的bat脚本连接字符串并保存到一个临时变量中

用类实现一个图书馆，实现借书，入库，还书，查书，等功能，要求数据可以保存到文件中，退出后下次可以找回数据

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)