Tabula Rasa:为什么基于树的算法优于神经网络 基于树的算法是表格数据的赢家

近年来,人工智能取得了长足的进步。ChatGPT震惊了世界。然而,尽管我们已经看到了图像和文本的令人难以置信的应用程序,但表格数据仍然是一个问题。(以至于Kadra 在 2021 年称它们为神经网络的“不可攻克的城堡”)。但为什么它们仍然是一个问题呢?

本文分为不同的部分。对于每个部分,我们将回答以下问题:

  • 什么是表格数据?
  • 为什么表格数据具有挑战性?
  • 为什么基于决策树的算法在处理表格数据时优于神经网络?
  • 对于表格数据,我们想要什么神经网络?有什么优点?
  • 我们应该如何为表格数据设计算法?
  • 查看文章末尾的参考文献列表,我还提供了一些深化主题的建议。

最后的数据前沿:表格数据

表格数据可以定义为结构化数据的一个子分支。简而言之,表格数据可以定义为任何可以描述为表格(如Excel 工作表)的数据,其中按照惯例,行代表示例,列代表特征。
矛盾的是,尽管它们很简单,但在现实应用中,大多数数据都是表格格式:金融、医学、气候科学和制造。

image.png

与图像、文本或音频(称为同类数据,因为它们只有一种类型的特征)相反,表格是异构数据,因为它们可以包含多种类型的特征:

  • 分类值:

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/132962915