数据具有许多形式,散乱无章。 无论我们谈论的是 缺失数据、非结构化数据, 还是缺乏常规结构的数据, 都需要采用某些方法对数据执行清理, 才能处理数据以改进数据质量。 这个系列教程探索了处理实际数据的重要问题, 以及可以应用的一些方法。
这个系列教程分为3个部分:处理散乱数据,从干净的数据集中获取宝贵洞察和可视化数据。
第一部分:处理散乱数据。发现为执行验证和处理而清理数据的相关常见问题及其解决方案。您还将找到一个自定义工具,该工具用于执行数据清理和合并数据集以供分析。主要包含以下几个部分:
- 什么是散乱数据
- 数据格式和模式
- 数据混合或融合
- 数据清理方法
- 数据概要分析
- 构建一个数据清理工具
- 开源数据清理工具
第二部分:从干净的数据集中获取宝贵洞察。了解 VQ 和 ART 算法。VQ 可以快速高效地对一个数据集进行聚类,而 ART 可以根据该数据集来调节聚类次数。主要包含以下几个部分:
- 矢量量化
- 实现 VQ
- 通过 VQ 进行聚类
- 自适应共振理论
- 实现 ART
- 通过 ART 进行聚类
第三部分:可视化数据。探索可视化数据的一些更有用的应用,以及一些可用来创建这种可视化的方法,包括 R 编程语言、gnuplot 和 Graphviz。主要包含以下几个部分:
- 可视化原始数据集
- 可视化运算过程
- 可视化集群
赶快点击“阅读原文”get 完整文章, 玩转数据做精准洞察!