机器学习中one-hot编码方法为什么与统计学中使用的虚拟编码方法不同 - 代码天地

机器学习中one-hot编码方法为什么与统计学中使用的虚拟编码方法不同

其他 2020-03-03 10:34:48 阅读次数: 0

在处理机器学习的数据集过程中存在一种编码方式称为One-hot编码，这种方式与统计学中使用的虚拟编码（dummy encoding）非常相似，但不完全相同。One-hot编码将类别编码为不同的二元特征，而统计学中，通常将具有k个可能取值的分类特征编码为k-1个特征。这么做专业的说法是为了避免矩阵秩亏，为什么？

因为如果按照统计学中的编码矩阵不是满秩矩阵，则不能计算逆矩阵，模型中有些算法是需要计算逆矩阵的；另一种解释是，满秩矩阵代表各元素之间是线性无关的，而我们输入的特征恰恰要求是线性无关的，否则就变成了交叉特征。

是魏小白吗

发布了9 篇原创文章 · 获赞 6 · 访问量 1409

私信关注

猜你喜欢

转载自blog.csdn.net/qq_37662375/article/details/89057497

机器学习中one-hot编码方法为什么与统计学中使用的虚拟编码方法不同

python对离散变量的one-hot编码方法

pytorch自带的one-hot编码方法

机器学习-标记编码方法

one-hot encoding不是万能的，这些分类变量编码方法你值得拥有

URI编码方法

91：编码方法

Embedding 编码方法

URL编码方法 encodeURIComponent（）

字符编码方法概述

通信系统中为什么要进行编码和解码？常见的编码方法有哪些？

泛统计理论初探——统计编码方法简介

机器学习中为何要使用独热编码 one-hot

[机器学习]One-Hot编码总结(独热编码)

MySql中设置utf8编码方法

Solidity之abi.encode各编码方法使用

记录两个编码方法

地图数据的类型及编码方法

leetcode笔记91—编码方法

php检测文件编码方法

类别型特征编码方法总结

DNN的输入类型为什么要用one-hot编码?

【火炉炼AI】机器学习002-标记编码方法

one-hot编码

one-hot 编码

文本表示方法--独热编码(One-Hot)

手动实现机器学习中的one-hot编码

WEB - 关于URL编码与常用编码方法

哈夫曼（Huffman）树构建方法，编码方法

sklearn的one-hot编码

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)