Spark Mllib 流水笔记一 统计

1、

范数是具有“长度”概念的函数。在向量空间内,为所有的向量的赋予非零的增长度或者大小。不同的范数,所求的向量的长度或者大小是不同的。

以上内容来自https://blog.csdn.net/lioncv/article/details/43016333

2、spark version

 <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-mllib_2.11</artifactId>
 </dependency>

3、 使用的数据样本

1,2,3,4,5
6,7,1,5,9
3,5,6,3,1
3,1,1,5,6

4、spark


import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.stat.Statistics
import org.apache.spark.{SparkConf, SparkContext}

object StatisticsDemo {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("stat")
    val sc   = new SparkContext(conf)
    val path ="data/sample_stat.txt"
    val data = sc.textFile(path).map(_.split(",")).map(f=>f.map(p=>p.toDouble))
    val data1 = data.map(f=>Vectors.dense(f))
    val stat1 = Statistics.colStats(data1)
    //求列的最大值列
    println(stat1.max)
    println(stat1.min)
    //求平均数
    println(stat1.mean)
    //求方差
    println(stat1.variance)
    //L1
    println(stat1.normL1)
    //L2
    println(stat1.normL2)

  }
}

结果:

[6.0,7.0,6.0,5.0,9.0]
[1.0,1.0,1.0,3.0,1.0]
[3.25,3.75,2.75,4.25,5.25]
[4.25,7.583333333333333,5.583333333333333,0.9166666666666666,10.916666666666666]
[13.0,15.0,11.0,17.0,21.0]
[7.416198487095663,8.888194417315589,6.855654600401044,8.660254037844387,11.958260743101398]
发布了61 篇原创文章 · 获赞 1 · 访问量 656

猜你喜欢

转载自blog.csdn.net/u012842247/article/details/103587934