机器学习中one-hot编码方法为什么与统计学中使用的虚拟编码方法不同

       在处理机器学习的数据集过程中存在一种编码方式称为One-hot编码,这种方式与统计学中使用的虚拟编码(dummy encoding)非常相似,但不完全相同。One-hot编码将类别编码为不同的二元特征,而统计学中,通常将具有k个可能取值的分类特征编码为k-1个特征。这么做专业的说法是为了避免矩阵秩亏,为什么?

        因为如果按照统计学中的编码矩阵不是满秩矩阵,则不能计算逆矩阵,模型中有些算法是需要计算逆矩阵的;另一种解释是,满秩矩阵代表各元素之间是线性无关的,而我们输入的特征恰恰要求是线性无关的,否则就变成了交叉特征。

发布了9 篇原创文章 · 获赞 6 · 访问量 1409

猜你喜欢

转载自blog.csdn.net/qq_37662375/article/details/89057497