1.DataFrame数据来源
参考官网:http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#datasets-and-dataframes
加载dataframe数据
val spark=SparkSession.builder().appName("DataFrameApp").master("local[2]").getOrCreate()
//将json文件加载为一个dataframe
val peopleDF= spark.read.format("json").load("datas/people.json")
2.基本API的操作
(1)printSchema:输出dataframe对应的schema信息
peopleDF.printSchema()
(2)show:输出dataframe的前20条记录
peopleDF.show()
(3)select:查询某列所有的数据
peopleDF.select("name").show()
(4)col:返回某一列的列名
//查询某几列的说有数据,并对列进行计算
peopleDF.select(peopleDF.col("name"),(peopleDF.col("age")+10).as("age2")).show()
(5)filter:根据某一列的值进行过滤
peopleDF.filter(peopleDF.col("age")>19).show()
(6)groupBy:根据某一列进行分组,然后行进聚合操作
peopleDF.groupBy("age").count().show()