sparkSQL(版本2以后)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_29493353/article/details/84938226
var spark = SparkSession.builder.master("local").appName("mytest").getOrCreate()
//dataset -> rdd
var dataset = spark.read.textFile("./test").cache
var result = dataset.rdd.map((a: String) => a.toInt).collect()
for (i <- result){
  println(i)
}
//dataset ->dataframe
var df = dataset.toDF("num")
df.createTempView("test")
spark.udf.register("strLen", (str: String) => str.toInt)
spark.sql("select max(num) as mx from test").show
spark.close()

spark.read.textFile("./test") 生成dataset对象

dataset->rdd dataset->dataframe 

dataframe可以定义自己的字段和view名字。

spark.udf.register用于注册自己的udf。

spark的的一些自带udf http://spark.apache.org/docs/1.6.0/api/scala/index.html#org.apache.spark.sql.functions$

sparksql知识链接:https://www.jianshu.com/p/db0a13b7be1e

猜你喜欢

转载自blog.csdn.net/qq_29493353/article/details/84938226