2.5 数据部分总结

2.5 数据部分总结

李沐

B站:https://space.bilibili.com/1567748478/channel/collectiondetail?sid=28144
课程主页:https://c.d2l.ai/stanford-cs329p/

在这里插入图片描述

1. 数据方面的挑战:

  • 数据量和标注质量的权衡:

​ 在数据方面也会有挑战:数据量和标注质量之间的平衡。

​ 不同的机器学习问题对以上两个方面的要求不完全一样,特别是深度学习模型,他不仅要求有一定高质量的标注数据,而且数据量的大小和丰富度也很重要。因此,应根据实际情况来平衡两者之间的关系。

  • 数据质量:
  • 多样性:数据集中应包含主题的方方面面。比如无人驾驶的数据集,不同的天气情况和道路场景都应该包含。
  • 数据集非偏:数据集没有对某个方面的偏向性。比如前面提到的房子数据集,收集的都是斯坦福附近的,因此训练出来的模型只适合斯坦福附近的情况,数据集是有偏向的。
  • 公平性:没有区别对待某些特定的人或事物。
  • **大数据的管理:**在·实际工业场景中,整个机器学习流程是一个不断迭代的过程,会不断收集添加新的数据,数据会越来越多。因此,数据的存储、处理、版本控制、数据安全都是挑战。

猜你喜欢

转载自blog.csdn.net/ch_ccc/article/details/129890287
2.5