1.DataFrame数据来源

参考官网：http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#datasets-and-dataframes

加载dataframe数据

val spark=SparkSession.builder().appName("DataFrameApp").master("local[2]").getOrCreate()
//将json文件加载为一个dataframe
val peopleDF= spark.read.format("json").load("datas/people.json")

2.基本API的操作

（1）printSchema：输出dataframe对应的schema信息

peopleDF.printSchema()

（2）show：输出dataframe的前20条记录

peopleDF.show()

（3）select：查询某列所有的数据

peopleDF.select("name").show()

（4）col：返回某一列的列名

//查询某几列的说有数据，并对列进行计算
peopleDF.select(peopleDF.col("name"),(peopleDF.col("age")+10).as("age2")).show()

（5）filter：根据某一列的值进行过滤

peopleDF.filter(peopleDF.col("age")>19).show()

（6）groupBy：根据某一列进行分组，然后行进聚合操作

peopleDF.groupBy("age").count().show()

SparkSQL（四）DataFrame基本API的操作

1.DataFrame数据来源

加载dataframe数据

2.基本API的操作

（1）printSchema：输出dataframe对应的schema信息

（2）show：输出dataframe的前20条记录

（3）select：查询某列所有的数据

（4）col：返回某一列的列名

（5）filter：根据某一列的值进行过滤

（6）groupBy：根据某一列进行分组，然后行进聚合操作

猜你喜欢