噪音的一个错误认识

以前的观点:噪音是错误的数据;

现在的观点:噪音不仅包括错误的数据,而且包括正确的数据,但由于采样的原因导致数据偏少,而对学习器而言等同于噪音;比如说5分类,其中一个类别只有10个样本,其他4个类别各有100万条样本,那么这10个样本就称之为噪音;称之为sampling noise;

噪音的本质:数据对预测是无效的;一种是对未来完全无用的数据,这种数据再多也是噪音;一种是对数据对未来预测有帮助,但 数据量稀少对未来预测也是随机的,也等同于噪音效果;

猜你喜欢

转载自blog.csdn.net/ningyanggege/article/details/81026875