—————2019-2-27————————————已持续学习23天—————
**

一、引言

**
1.数据分析与挖掘的定义
1.1 数据分析（易）：对已知数据进行分析，提取出有价值的信息（平均数、标准差等），数据量可能不会太大；
1.2 数据挖掘（难）：对大量的数据进行分析与挖掘，得到一些未知的、有价值的信息，比如从用户行为数据中挖掘出用户的潜在需求信息，改善网站等。

2.数据分析与挖掘的应用
首先，发现数据规律。发现窃电用

3.数据挖掘的过程
3.1 定义目标（我的需求：要解决什么问题？）
3.2 获取数据（爬虫自动采集或某些统计局网站下载）
3.3 数据探索（）
3.4 数据预处理
数据清洗（无线、缺失、异常）、数据集成（不同来源的数据集中）、数据变换（不改变基本结构情况下，规范化，如转置等）、数据规约（精简）
3.5 挖掘建模
（分类、聚类、关联、预测）
3.6 评价与发布

二、安装模块

1.1 numpy
数组支持、高效处理数据
1.2 pandas
数据探索与分析
1.3 matplotlib
可视化
1.4 scipy
矩阵运算、数值计算、积分、微分方程、傅里叶变换
1.5 statsmodels
统计分析
1.6 Gensim
文本挖掘
1.7 sklearn（机器学习）、keras（深度学习）

三、模块使用

numpy
创建数组
numpy.array
import numpy as np
x = np.array([“9”, “8”, “2”])

y = np.array([[3,3,3],[4,3,4],[5,5,5],[6,6,6]])
print(x)
print(y[1][1])
#排序
z = np.sort(x)
print(z)
#取最值
y1 = y.min()
print(y1)
#切片[起始下标:最终下标+1] 左闭右开
x1 = x[1:2] #取 1/2
print(x1) # 2-1

Pandas

import pandas as pd

Series连续数字列 DataFrame数据框 index:索引

a = pd.Series([8,9,2,1])
print(a)

b = pd.Series([8,9,2,1],index=[‘one’,‘two’,‘three’,‘four’])
c = pd.DataFrame([[4,56,2],[12,45,4],[58,47,99],[66,52,34]])
#columns=指定列名； index=指定行名
c1 = pd.DataFrame([[4,56,2],[12,45,4],[58,47,99],[66,52,34]],index=[‘one’,‘two’,‘three’,‘four’],columns=[‘one’,‘two’,‘three’])
print(c1)

#通过字典的方式
e = pd.DataFrame({
‘one’:1, #自动填充为它本身
‘two’:[6,2,3],
‘three’:list(str(982))
})
print(e)

head调取头部数据，默认前五行 tail调取尾部数据，默认后五行

print(c1.head(1))
print(c1.tail(2))

describe count：计数；std：标准差；每列分位数（25%，50%，75&）

print(c1.describe())

转置（行列颠倒）.T

print(c1.T)
import pandas as pd

###导入数据——————————

读取CSV文件

i = pd.read_csv(“F:/result/1.csv”)
print(i.describe())

排序

a = i.sort_values(by=“长度”)
print(a)

导入EXCEL文件

#pd.read_excel()

导入MySQL数据库里的数据

import pymysql
conn = pymysql.connect(host=“127.0.0.1”,user=“root”,passwd=“root”,db=“dd”)
sql = “select * from books”
g = pd.read_sql(sql,conn)
print(g)

读取网页表格

m = pd.read_html(“https://book.douban.com/”)
print(m)

导入文本数据

n = pd.read_table(“f:/result/1.txt”)
print(n)

Python 数据分析部分学习笔记