Spark ML函数VectorAssembler - 代码天地

Spark ML函数VectorAssembler

其他 2018-07-22 05:15:03 阅读次数: 0

从源数据中提取特征指标数据，这是一个比较典型且通用的步骤，因为我们的原始数据集里，经常会包含一些非指标数据，如 ID，Description 等。为方便后续模型进行特征输入，需要部分列的数据转换为特征向量，并统一命名，VectorAssembler类完成这一任务。VectorAssembler是一个transformer，将多列数据转化为单列的向量列。

import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.linalg.Vectors

val dataset = spark.createDataFrame(
  Seq((0, 18, 1.0, Vectors.dense(0.0, 10.0, 0.5), 1.0))
).toDF("id", "hour", "mobile", "userFeatures", "clicked")

val assembler = new VectorAssembler()
  .setInputCols(Array("hour", "mobile", "userFeatures"))
  .setOutputCol("features")

val output = assembler.transform(dataset)
println(output.select("features", "clicked").first())

转化前的数据：

id | hour | mobile | userFeatures     | clicked
----|------|--------|------------------|---------
 0  | 18   | 1.0    | [0.0, 10.0, 0.5] | 1.0
 ```

转化后的数据：

id	hour	mobile	userFeatures	clicked	features
0	18	1.0	[0.0, 10.0, 0.5]	1.0	[18.0, 1.0, 0.0, 10.0, 0.5]

“`

猜你喜欢

转载自blog.csdn.net/bigdata_mining/article/details/81122963

Spark ML函数VectorAssembler

Spark VectorAssembler 向量装配转换器

spark ml

Spark ML Pipelines（ML管道）

spark ml pipelines

Spark ML 实例1

spark-ML基础

Spark ML逻辑回归

Spark ML数学基础

Spark的Ml pipeline理解

python spark ML

Spark ml之Binarizer

Spark ml之StopWordsRemover

Spark ml之Tokenizer

spark ml包

【Spark MLlib】（一）Spark ML Pipelines

【Spark MLlib】（三）Spark ML 数据基础

Spark ML - 聚类算法

Spark ML - 协同过滤

spark 机器学习（ml pipeline）

Spark ML PipeLine学习笔记

Spark ML机器学习：SQLTransformer

【Spark】Spark ML 机器学习的一个案例

Spark（三十）Spark SQl内置函数

【Spark】spark randomSplit glom函数操作详解

spark.ml机器学习模块

学习spark ml源码——线性回归

spark ML 中 VectorIndexer, StringIndexer等用法

Spark-ML 线性回归 LinearRegression

Spark ML特征的提取、转换和选择

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)