—————2019-2-27————————————已持续学习23天—————
**
一、引言
**
1.数据分析与挖掘的定义
1.1 数据分析(易):对已知数据进行分析,提取出有价值的信息(平均数、标准差等),数据量可能不会太大;
1.2 数据挖掘(难):对大量的数据进行分析与挖掘,得到一些未知的、有价值的信息,比如从用户行为数据中挖掘出用户的潜在需求信息,改善网站等。
2.数据分析与挖掘的应用
首先,发现数据规律。发现窃电用
3.数据挖掘的过程
3.1 定义目标(我的需求:要解决什么问题?)
3.2 获取数据(爬虫自动采集或某些统计局网站下载)
3.3 数据探索()
3.4 数据预处理
数据清洗(无线、缺失、异常)、数据集成(不同来源的数据集中)、数 据变换(不改变基本结构情况下,规范化,如转置等)、数据规约(精简)
3.5 挖掘建模
(分类、聚类、关联、预测)
3.6 评价与发布
二、安装模块
1.1 numpy
数组支持、高效处理数据
1.2 pandas
数据探索与分析
1.3 matplotlib
可视化
1.4 scipy
矩阵运算、数值计算、积分、微分方程、傅里叶变换
1.5 statsmodels
统计分析
1.6 Gensim
文本挖掘
1.7 sklearn(机器学习)、keras(深度学习)
三、模块使用
- numpy
创建数组
numpy.array
import numpy as np
x = np.array([“9”, “8”, “2”])
y = np.array([[3,3,3],[4,3,4],[5,5,5],[6,6,6]])
print(x)
print(y[1][1])
#排序
z = np.sort(x)
print(z)
#取最值
y1 = y.min()
print(y1)
#切片[起始下标:最终下标+1] 左闭右开
x1 = x[1:2] #取 1/2
print(x1) # 2-1
Pandas
import pandas as pd
Series连续数字列 DataFrame数据框 index:索引
a = pd.Series([8,9,2,1])
print(a)
b = pd.Series([8,9,2,1],index=[‘one’,‘two’,‘three’,‘four’])
c = pd.DataFrame([[4,56,2],[12,45,4],[58,47,99],[66,52,34]])
#columns=指定列名; index=指定行名
c1 = pd.DataFrame([[4,56,2],[12,45,4],[58,47,99],[66,52,34]],index=[‘one’,‘two’,‘three’,‘four’],columns=[‘one’,‘two’,‘three’])
print(c1)
#通过字典的方式
e = pd.DataFrame({
‘one’:1, #自动填充为它本身
‘two’:[6,2,3],
‘three’:list(str(982))
})
print(e)
head调取头部数据,默认前五行 tail调取尾部数据,默认后五行
print(c1.head(1))
print(c1.tail(2))
describe count:计数;std:标准差;每列分位数(25%,50%,75&)
print(c1.describe())
转置(行列颠倒).T
print(c1.T)
import pandas as pd
###导入数据——————————
读取CSV文件
i = pd.read_csv(“F:/result/1.csv”)
print(i.describe())
排序
a = i.sort_values(by=“长度”)
print(a)
导入EXCEL文件
#pd.read_excel()
导入MySQL数据库里的数据
import pymysql
conn = pymysql.connect(host=“127.0.0.1”,user=“root”,passwd=“root”,db=“dd”)
sql = “select * from books”
g = pd.read_sql(sql,conn)
print(g)
读取网页表格
m = pd.read_html(“https://book.douban.com/”)
print(m)
导入文本数据
n = pd.read_table(“f:/result/1.txt”)
print(n)