[Note] 实用数据分析 Chap.2

Chap2.数据预处理

2.1 数据源

数据源:泛指对数据的抽取、存储技术。

数据集:一组数据的集合,通常以表格的形式呈现。

数据集的特征:数据集特性(多变量、单变量)、实例数、领域、属性特征、属性值、相关任务(分类或聚类)、缺失值 

2.1.1 开源数据

开源数据:可以被任何人基于不同目的进行使用、再利用或者再分配的数据。

Data hub、Book-Crossing、世界健康组织、世界银行、美国国家航空航天局、美国政府…

2.1.2 文本文件

日志、传感器、E-mail、交易数据

常见形式:CSV 文件(以 "," 分割)、TSV文件(以 "tab" 分割)、可扩展标记语言(XML)以及JSON

2.1.3 Excel文件

Excel应用:过滤、合并、使用 SQL 进行 Visual Basis 应用

2.1.4 SQL数据库

数据库是数据集的组织形式。

SQl是一种管理和控制数据的数据库语言,应用在关系型数据库管理系统(Relational Database Management System, RDBMS)中。数据库管理系统负责维持数据的一致性和数据安全存储,负责对故障时的信息恢复。

SQL语言可以划分为:数据定义语言(Data Defination Language, DDL)、数据控制语言(Data Manipulation Language, DML)

数据定义语言允许对数据库进行创建、删除和更改。通过定义主键来详细描述表间的关系,并执行对数据库表的限制。

2.1.5 NoSQL数据库

NoSQL 是数据无序使用关系模型的情况下所涉及的多种技术的总称。(大数据量处理,具有高可用性、可量测性和高效能数据处理的特性)

·文件存储:数据按照文件集合方式进行存储和组织。

·键 - 值存储:数据按照键值对应的方式存储,无须预先定义模式。数值通过对应的键获取。

·基于图形的存储:采用图论,将数据按照点、边和属性值的图形结构方式进行存储和获取。(常用于分析社交网络和关系)

2.1.6 多媒体

音频、图像、视频、面部识别、语音识别、音频和音乐分类

2.1.7 网页检索(爬虫)

网页检索(web scraping)是指处理 HTML 网页来获取数据加以操作的一种应用。

实例传送门,网站更新过,书上代码不能用了)

2.2 数据清洗

数据清洗:对数据集中错误的、不精确的、不完整的、格式错误的、重复的数据进行修正、移除。

2.2.1 统计方法

平均数、中位数、范围约束、聚类(clustering)

2.2.2 文本解析

正则表达式验证文本格式。(python 里的 re 模块)

import re
myString = 'From: [email protected] (readers email)'
result = re.search('([\w.-]+)@([\w.-]+)', myString)
if result:
    print(result.group(0))
    print(result.group(1))
    print(result.group(2))

输出

(具体查阅文档内正则表达式部分)、

猜你喜欢

转载自blog.csdn.net/qq373271567/article/details/83040237