基于sklearn同时处理连续特征和离散特征 - 代码天地

基于sklearn同时处理连续特征和离散特征

其他 2018-08-30 11:42:58 阅读次数: 0

核心思路：

先用LabelEncoder对离散特征编码，因为onehotencoder只能处理数值

然后使用OneHotEncoder编码，生成稀疏表示的特征

再使用sparse.hstack连接连续特征和稀疏特征

为什么不使用pd.get_dummy呢，因为这样是直接生成的稠密矩阵，内存开销太大

# coding=utf-8
# @author: bryan
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from scipy import sparse

for feature in cate_feature + con_feature:
    data[feature] = LabelEncoder().fit_transform(data[feature].values)
enc = OneHotEncoder()
train_x=train[numeric_feature]
test_x=test[numeric_feature]
for feature in cate_feature+con_feature:
    enc.fit(data[feature].values.reshape(-1, 1))
    train_a=enc.transform(train[feature].values.reshape(-1, 1))
    test_a = enc.transform(test[feature].values.reshape(-1, 1))
    train_x= sparse.hstack((train_x, train_a))
    test_x = sparse.hstack((test_x, test_a))

# 文本one hot
from sklearn.feature_extraction.text import CountVectorizer
# 每行用空格join起来
data['corpus']=data['corpus'].apply(lambda x:' '.join(x.split(';')))
#如果corpus里面是数字，可能会提示empty vocabulary; perhaps the documents only contain stop words
#改成这样就行了CountVectorizer(token_pattern='(?u)\\b\\w+\\b')
property_feature = CountVectorizer().fit_transform(data['corpus'])
train_x=sparse.hstack((train_property_feature,train_x))

猜你喜欢

转载自blog.csdn.net/Bryan__/article/details/79911768

基于sklearn同时处理连续特征和离散特征

特征工程——连续特征与离散特征处理方法

利用python对包含离散型特征和连续型特征的数据进行预处理

连续特征离散化

机器学习：《特征工程三部曲》之一数据处理（连续特征和离散特征）

连续特征的离散化与离散特征的连续化

连续特征离散化的方法

为什么要连续特征离散化处理？

【skLearn 数据预处理和特征工程】特征工程

连续特征离散化和归一化

基于sklearn分析特征工程（特征预处理、特征选择、降维）

离散型特征的处理方法

连续特征离散化的必要性

【skLearn 数据预处理和特征工程】数据预处理

【特征工程】连续数据特征离散化的方法

Spark连续特征转化成离散特征

用python实现求信息增益，进行特征选择。（可以同时适用于二值离散型和连续型的属性）

【机器学习】对于特征离散化，特征交叉，连续特征离散化非常经典的解释

对于特征离散化，特征交叉，连续特征离散化的解释

CART算法处理连续特征

sklearn中的数据预处理和特征工程

推荐系统-特征工程-离散型特征的处理：OneHotEncoder

【sklearn实例】4--特征工程之离散值编码

python之sklearn-特征工程-1.3 特征预处理

特征工程之离散变量处理

特征处理之数据离散化

基于sklearn的文本特征提取与分类

机器学习sklearn—数据的特征预处理

机器学习 sklearn 特征预处理

sklearn 数据处理与特征工程

今日推荐

周排行

(BIND最佳实践)Linux运维最佳实践

makefile ifeq之坑: 1. syntax error near unexpected token 2. *** missing separator. Stop.

easyui datagrid操作栏内置图片按钮

SQLyog连接MySQL时出现的2058错误解决方法

linux音频开发

hashcode方法简析

SpringBoot中使用Transaction注解遇到的坑

逆战-CSS中子元素在父元素中的4种水平垂直居中方法

Expression.Blend.4 Chapter 图片和视频的使用

springMVC返回void值

每日归档

更多

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)