OneHot编码用于用于生产解决维度问题 - 代码天地

OneHot编码用于用于生产解决维度问题

其他 2020-10-30 11:25:06 阅读次数: 0

不知道大家在使用OneHot编码的过程中有没有遇到这样的问题，比如在训练样本中某一列的值(离散)为“green” "red" "yellow"，并对其进行了one-hot编码，效果如下：

当在生产环境中实时读取新增数据时，出现一些训练样本中未见过的数据，如"green" "blue"，其one-hot编码如下：

那么在这种情况下会导致数据维度不一致，但由于训练好的模型输入维度是确定的，这可能会导致模型无法正常计算，那么如何解决这个问题呢？

可以使用pandas中的Categorical解决这个问题，具体代码如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
__author__ = 'Seven'
import pandas as pd

train_words = ['green', 'red', 'yellow']
product_words = pd.Series(['green', 'blue'])

product_words_op = pd.Categorical(product_words, categories=train_words)

print(pd.get_dummies(product_words_op))

执行效果如下：

由于green已知类别的列表中，green的所有one-hot编码条目都为零。如果你在生产数据中发现了新的数据，那么对应的行应该都是0。此种方法可以在一定程度上解决生产环境中的维度问题导致模型无法计算。

猜你喜欢

转载自blog.csdn.net/gf19960103/article/details/102736828

OneHot编码用于用于生产解决维度问题

20190103生产问题--用于回忆

OneHot编码

onehot 编码

Android/Java 获取一个byte[]的真实编码，用于解决乱码问题

用于解决js的浮点小数计算问题。

单调栈的应用（用于解决NextGreaterElement问题）

做onehot编码

sklearn-onehot编码

什么是onehot编码

sqlsever 查看字符的十六进制编码，用于乱码编码解码解决方案。

解决CNN固有缺陷！CCNN：迈向通用CNN架构！用于任意分辨率、长度和维度的数据...

简单的用于解决分类问题的神经网络

MySQL 8.0 何时适用于生产？

JavaScript获取mp4文件MIME编码格式，用于判读是否是h.264，解决在线播放只有声音问题

稀疏编码用于产品表面异常检测

如何使用nginx解决跨域问题（适用于一般项目，不适用于vue）

TensorFlow学习笔记--onehot编码

GBDT算法用于分类问题

PyTorch 1.0宣布用于研究和生产AI项目

Istio 1.0 正式版发布，可用于生产环境！

Wasmtime 1.0 正式发布：快速、安全、可用于生产环境

可用于生产环境开源软件/框架列表

柯西不等式（多用于解决不等式问题）

使用回溯法解决八皇后问题(同样适用于N皇后)。

Keras ：创建自己的generator(适用于model.fit_generator)，解决内存问题

二分图的匈牙利算法（用于解决最大匹配问题）

解决matplotlib显示不了中文的问题（适用于linux、windows、mac）

error C2041: 非法的数字“8”(用于基“8”)问题分析及解决方案

JMeter 官网下载速度很慢解决方法--适用于同类型问题

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)