SparkShell启动(DataFrame的创建)

[root@hdp-1 bin]# ./spark-shell --master spark://hdp-1:7077 --executor-memory 500m --total-executor-cores 1 --driver-class-path /root/Jar_File/mysql-connector-java-5.1.39.jar 

一定要加载MySQL的驱动包,不然创建Dataframe会报错误

在spark-shell中提供的sparksession对象是spark,sparkcontext对象时sc.

在创建DataFrame之前,为了支持RDD转换为Dataframe及后续的sql操作,需要通过improt语句(即 import spark.implicits._)导入相应的包,启用隐式转换。

可以通过spark.read创建Dataframe

例如:spark.read.json("file:///root/people.json")  这里是文件路径

           spark.read.csv("file:///root/people.csv")

           spark.read.parquet("file:///root/people.parquet")

发布了85 篇原创文章 · 获赞 3 · 访问量 2530

猜你喜欢

转载自blog.csdn.net/Romantic_sir/article/details/103318599