【机器学习入门系列】第二章探索性分析

欢迎来到我们的7部分数据科学和应用机器学习迷你课程！

在上一章中，我们看到了整个机器学习工作流程的概述。我们看到数据科学的“80/20”包括5个核心步骤。

在本章中，我们将深入探讨这些核心步骤中的第一步： 探索性分析。

不应将此步骤与数据可视化或摘要统计混淆。那些只是工具......意味着结束。

适当的探索性分析是关于回答问题。它是关于从你的数据集中提取足够的见解，以便在你在杂草中迷路之前纠正。

在本指南中，我们将介绍要查找的见解。让我们开始吧。

为什么要提前探索数据集？

探索性分析的目的是 “了解”数据集。提前完成这项工作将使项目的其余部分更加顺畅，主要有三种方式：

您将获得有关数据清理的宝贵提示（可以创建或破坏您的模型）。
您将会想到特征工程的想法（可以将您的模型从优秀变为优秀）。
您将获得数据集的“感觉”，这将有助于您传达结果并产生更大的影响。

然而，对机器学习的探索性分析应该是快速，有效和果断的 ......不长并且抽出来！

不要跳过这一步，但也不要卡在上面。

你看，有无限可能的图表，图表和表格，但你只需要少量 “足以”了解数据就可以使用它。

扫描二维码关注公众号，回复： 2539054 查看本文章

在本课程中，我们将向您展示可提供最大收益的可视化效果。

从基础知识开始

首先，您需要回答有关数据集的一组基本问题：

我有多少观察？
有多少功能？
我的功能有哪些数据类型？它们是数字吗？分类？
我有目标变量吗？

基本信息

知道你在做什么。

示例观察

然后，您将要显示数据集中的示例观察。这将使您对每个功能的值有“感觉”，这是检查一切是否有意义的好方法。

以下是我们的机器学习大师班的Project 2中使用的房地产数据集的示例（您可以向右滚动以查看更多列）：

	tx_price	床	浴	平方英尺	year_built	批量	财产种类	exterior_walls	屋顶	地下室	餐馆	杂货	夜生活	咖啡馆	购物	arts_entertainment	beauty_spas	active_life	中年的	已婚	college_grad	财产税	保险	median_school	num_schools	tx_year
0	295850	1	1	584	2013	0	公寓/公寓/联排别墅	木壁板	为NaN	为NaN	107	9	三十	19	89	6	47	58	33.0	65.0	84.0	234.0	81.0	9	3.0	2013
1	216500	1	1	612	1965年	0	公寓/公寓/联排别墅	砖	组成瓦片	1.0	105	15	6	13	87	2	26	14	39.0	73.0	69.0	169.0	51.0	3.0	3.0	2006年
2	279900	1	1	615	1963年	0	公寓/公寓/联排别墅	木壁板	为NaN	为NaN	183	13	31	三十	101	10	74	62	28.0	15.0	86.0	216.0	74.0	8	3.0	2012
3	379900	1	1	618	2000	33541	公寓/公寓/联排别墅	木壁板	为NaN	为NaN	198	9	38	25	127	11	72	83	36.0	25.0	91.0	265.0	92.0	9	3.0	2005年
4	340000	1	1	634	1992年	0	公寓/公寓/联排别墅	砖	为NaN	为NaN	149	7	22	20	83	10	50	73	37.0	20.0	75.0	88.0	30.0	9	3.0	2002年

显示数据集中的示例的目的不是执行严格的分析。相反，它是为数据集获得 定性的“感觉”。

列有意义吗？
这些列中的值是否有意义？
这些值是否合适？
被丢失的数据将是基于快速眼球测试的一个大问题？

绘制数值分布

接下来，绘制数字要素的分布可能非常有启发性。

通常，快速而脏的直方图网格足以理解分布。

以下是一些需要注意的事项：

意外的分布
潜在的异常值没有意义
应该是二进制的特征（即“想要指示变量”）
边界没有意义
潜在的测量误差

此时，您应该开始记录您想要做的潜在修复。如果某些内容看起来不合适，例如您的某个功能中存在潜在的异常值，那么现在是向客户/关键利益相关方询问或者深入挖掘的好时机。

但是，我们会等到Data Cleaning进行修复，以便我们能够保持步骤的有序性。

直方图网格

绘制分类分布

无法通过直方图显示分类要素。相反，您可以使用 条形图。

特别是，您需要注意 稀疏类，这些类是具有非常少量观察的类。

顺便说一句，“类”只是分类特征的唯一值。例如，以下条形图显示了名为“exterior_walls”的特征的分布。所以Wood Siding，Brick和Stucco都是这个功能的类。

酒吧情节

无论如何，回到稀疏类......正如你所看到的，'exterior_walls'的 一些类有很短的条形。那些是稀疏的课程。

在构建模型时，它们往往会出现问题。

在最好的情况下，它们不会对模型产生太大影响。
在更糟糕的情况下，它们可能导致模型过度拟合。

因此，我们建议您稍后组合或 重新分配其中一些类。我们更喜欢将其保存到Feature Engineering（第4课）。

绘图分段

分段是观察分类特征和数字特征之间关系的有效方法。

箱形图 允许您这样做。

以下是您可以从下图中获得的一些见解。

单户住宅的中位交易价格（框中间垂直条）远高于公寓/公寓/联排别墅。
在最小和最大的交易价格是两个阶级之间的可比性。
事实上，圆形分钟（$ 200k）和最大（$ 800k）表明可能的数据截断 ...
...在以后评估模型的普遍性 时，记住这一点非常重要！

箱形图

研究相关性

最后，相关性允许您查看数字要素与其他数字要素之间的关系。

相关性是介于-1和1之间的值，表示两个要素一致移动的程度。您无需记住数学计算它们。只要知道以下直觉：

正相关意味着当一个特征增加时，另一个特征增加。例如孩子的年龄和身高。
负相关意味着当一个特征增加时，另一个特征减少。例如，学习的时间和参加的人数。
-1或1附近的相关性表明关系密切。
接近0的人表示关系薄弱。
0表示没有关系。

相关 热图可 帮助您可视化此信息。这是一个例子（注意：所有相关性都乘以100）：

章节测验

在探索性分析步骤结束时，您将对数据集，数据清理的一些注释以及可能的特征工程想法有很好的理解。

陆浩！

没有人有心告诉杰瑞，他发现的只是“巴哈马捣碎的土豆”周刊特别...

这是一个简短的测验来检查你得到了一切：

什么类型的功能可以有稀疏类？你会如何检查它们？
如果'sqft' （物业的大小）与'浴室' （浴室的＃）有0.68的相关性，这意味着什么？
通过查看数据集中的示例观察，可以进行3次健全性检查？

原文：https://elitedatascience.com/exploratory-analysis