Chap2.数据预处理

2.1 数据源

数据源：泛指对数据的抽取、存储技术。

数据集：一组数据的集合，通常以表格的形式呈现。

数据集的特征：数据集特性（多变量、单变量）、实例数、领域、属性特征、属性值、相关任务（分类或聚类）、缺失值

2.1.1 开源数据

开源数据：可以被任何人基于不同目的进行使用、再利用或者再分配的数据。

Data hub、Book-Crossing、世界健康组织、世界银行、美国国家航空航天局、美国政府…

2.1.2 文本文件

日志、传感器、E-mail、交易数据

常见形式：CSV 文件（以 "," 分割）、TSV文件（以 "tab" 分割）、可扩展标记语言（XML）以及JSON

2.1.3 Excel文件

Excel应用：过滤、合并、使用 SQL 进行 Visual Basis 应用

2.1.4 SQL数据库

数据库是数据集的组织形式。

SQl是一种管理和控制数据的数据库语言，应用在关系型数据库管理系统（Relational Database Management System, RDBMS）中。数据库管理系统负责维持数据的一致性和数据安全存储，负责对故障时的信息恢复。

SQL语言可以划分为：数据定义语言（Data Defination Language, DDL）、数据控制语言（Data Manipulation Language, DML）

数据定义语言允许对数据库进行创建、删除和更改。通过定义主键来详细描述表间的关系，并执行对数据库表的限制。

2.1.5 NoSQL数据库

NoSQL 是数据无序使用关系模型的情况下所涉及的多种技术的总称。（大数据量处理，具有高可用性、可量测性和高效能数据处理的特性）

·文件存储：数据按照文件集合方式进行存储和组织。

·键 - 值存储：数据按照键值对应的方式存储，无须预先定义模式。数值通过对应的键获取。

·基于图形的存储：采用图论，将数据按照点、边和属性值的图形结构方式进行存储和获取。（常用于分析社交网络和关系）

2.1.6 多媒体

音频、图像、视频、面部识别、语音识别、音频和音乐分类

2.1.7 网页检索（爬虫）

网页检索（web scraping）是指处理 HTML 网页来获取数据加以操作的一种应用。

（实例传送门，网站更新过，书上代码不能用了）

2.2 数据清洗

数据清洗：对数据集中错误的、不精确的、不完整的、格式错误的、重复的数据进行修正、移除。

2.2.1 统计方法

平均数、中位数、范围约束、聚类（clustering）

2.2.2 文本解析

正则表达式验证文本格式。（python 里的 re 模块）

import re
myString = 'From: [email protected] (readers email)'
result = re.search('([\w.-]+)@([\w.-]+)', myString)
if result:
    print(result.group(0))
    print(result.group(1))
    print(result.group(2))

输出

（具体查阅文档内正则表达式部分）、

[Note] 实用数据分析 Chap.2