欢迎来到我们的7部分数据科学和应用机器学习迷你课程!
在上一章中,我们看到了整个机器学习工作流程的概述。我们看到数据科学的“80/20”包括5个核心步骤。
在本章中,我们将深入探讨这些核心步骤中的第一步: 探索性分析。
不应将此步骤与数据可视化或摘要统计混淆。那些只是工具......意味着结束。
适当的探索性分析是关于回答问题。它是关于从你的数据集中提取足够的见解,以便在你在杂草中迷路之前纠正。
在本指南中,我们将介绍要查找的见解。让我们开始吧。
为什么要提前探索数据集?
探索性分析的目的是 “了解”数据集。提前完成这项工作将使项目的其余部分更加顺畅,主要有三种方式:
然而,对机器学习的探索性分析应该是快速,有效和果断的 ......不长并且抽出来!
不要跳过这一步,但也不要卡在上面。
你看,有无限可能的图表,图表和表格,但你只需要少量 “足以”了解数据就可以使用它。
在本课程中,我们将向您展示可提供最大收益的可视化效果。
从基础知识开始
首先,您需要回答有关数据集的一组基本问题:
- 我有多少观察?
- 有多少功能?
- 我的功能有哪些数据类型?它们是数字吗?分类?
- 我有目标变量吗?
知道你在做什么。
示例观察
然后,您将要显示数据集中的示例观察。这将使您对每个功能的值有“感觉”,这是检查一切是否有意义的好方法。
以下是我们的机器学习大师班的Project 2中使用的房地产数据集的示例(您可以向右滚动以查看更多列):
tx_price | 床 | 浴 | 平方英尺 | year_built | 批量 | 财产种类 | exterior_walls | 屋顶 | 地下室 | 餐馆 | 杂货 | 夜生活 | 咖啡馆 | 购物 | arts_entertainment | beauty_spas | active_life | 中年的 | 已婚 | college_grad | 财产税 | 保险 | median_school | num_schools | tx_year | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 295850 | 1 | 1 | 584 | 2013 | 0 | 公寓/公寓/联排别墅 | 木壁板 | 为NaN | 为NaN | 107 | 9 | 三十 | 19 | 89 | 6 | 47 | 58 | 33.0 | 65.0 | 84.0 | 234.0 | 81.0 | 9 | 3.0 | 2013 |
1 | 216500 | 1 | 1 | 612 | 1965年 | 0 | 公寓/公寓/联排别墅 | 砖 | 组成瓦片 | 1.0 | 105 | 15 | 6 | 13 | 87 | 2 | 26 | 14 | 39.0 | 73.0 | 69.0 | 169.0 | 51.0 | 3.0 | 3.0 | 2006年 |
2 | 279900 | 1 | 1 | 615 | 1963年 | 0 | 公寓/公寓/联排别墅 | 木壁板 | 为NaN | 为NaN | 183 | 13 | 31 | 三十 | 101 | 10 | 74 | 62 | 28.0 | 15.0 | 86.0 | 216.0 | 74.0 | 8 | 3.0 | 2012 |
3 | 379900 | 1 | 1 | 618 | 2000 | 33541 | 公寓/公寓/联排别墅 | 木壁板 | 为NaN | 为NaN | 198 | 9 | 38 | 25 | 127 | 11 | 72 | 83 | 36.0 | 25.0 | 91.0 | 265.0 | 92.0 | 9 | 3.0 | 2005年 |
4 | 340000 | 1 | 1 | 634 | 1992年 | 0 | 公寓/公寓/联排别墅 | 砖 | 为NaN | 为NaN | 149 | 7 | 22 | 20 | 83 | 10 | 50 | 73 | 37.0 | 20.0 | 75.0 | 88.0 | 30.0 | 9 | 3.0 | 2002年 |
显示数据集中的示例的目的不是执行严格的分析。相反,它是 为数据集获得 定性的“感觉”。
- 列有意义吗?
- 这些列中的值是否有意义?
- 这些值是否合适?
- 被丢失的数据将是基于快速眼球测试的一个大问题?
绘制数值分布
接下来,绘制数字要素的分布可能非常有启发性。
通常,快速而脏的直方图网格 足以理解分布。
以下是一些需要注意的事项:
- 意外的分布
- 潜在的异常值没有意义
- 应该是二进制的特征(即“想要指示变量”)
- 边界没有意义
- 潜在的测量误差
此时,您应该开始记录您想要做的潜在修复。如果某些内容看起来不合适,例如您的某个功能中存在潜在的异常值,那么现在是向客户/关键利益相关方询问或者深入挖掘的好时机。
但是,我们会等到Data Cleaning进行修复,以便我们能够保持步骤的有序性。
绘制分类分布
无法通过直方图显示分类要素。相反,您可以使用 条形图。
特别是,您需要注意 稀疏类,这些类是具有非常少量观察的类。
顺便说一句,“类”只是分类特征的唯一值。例如,以下条形图显示了名为“exterior_walls”的特征的分布。所以Wood Siding,Brick和Stucco都是这个功能的类。
无论如何,回到稀疏类......正如你所看到的,'exterior_walls'的 一些类 有很短的条形。那些是稀疏的课程。
在构建模型时,它们往往会出现问题。
- 在最好的情况下,它们不会对模型产生太大影响。
- 在更糟糕的情况下,它们可能导致模型过度拟合。
因此,我们建议您 稍后组合 或 重新分配其中一些类。我们更喜欢将其保存到Feature Engineering(第4课)。
绘图分段
分段是观察分类特征和数字特征之间关系的有效方法。
箱形图 允许您这样做。
以下是您可以从下图中获得的一些见解。
- 单户住宅的中位交易价格(框中间垂直条)远高于公寓/公寓/联排别墅。
- 在最小和最大的交易价格是两个阶级之间的可比性。
- 事实上,圆形分钟($ 200k)和最大($ 800k)表明可能的数据截断 ...
- ...在以后评估模型的普遍性 时,记住这一点非常重要 !
研究相关性
最后,相关性允许您查看数字要素与其他数字要素之间的关系。
相关性是介于-1和1之间的值,表示两个要素一致移动的程度。您无需记住数学计算它们。只要知道以下直觉:
- 正相关意味着当一个特征增加时,另一个特征增加。例如孩子的年龄和身高。
- 负相关意味着当一个特征增加时,另一个特征减少。例如,学习的时间和参加的人数。
- -1或1附近的相关性表明关系密切。
- 接近0的人表示关系薄弱。
- 0表示没有关系。
相关 热图可 帮助您可视化此信息。这是一个例子(注意:所有相关性都乘以100):
一般来说,你应该注意:
- 哪些特征与目标变量密切相关?
- 其他功能之间是否存在有趣或意想不到的强相关性?
同样,您的目标是获得对数据的直觉,这将在整个工作流程的其余部分帮助您。
章节测验
在探索性分析步骤结束时,您将对数据集,数据清理的一些注释以及可能的特征工程想法有很好的理解。
没有人有心告诉杰瑞,他发现的只是“巴哈马捣碎的土豆”周刊特别...
这是一个简短的测验来检查你得到了一切:
- 什么类型的功能可以有稀疏类?你会如何检查它们?
- 如果'sqft' (物业的大小)与'浴室' (浴室的#)有0.68的相关性, 这意味着什么 ?
- 通过查看数据集中的示例观察,可以进行3次健全性检查?
原文:https://elitedatascience.com/exploratory-analysis