数据预处理
数据读写
- JSON 数据结构
import json导入json包。json.loads(josn格式的对象) 返回一个字典 ,json.load(文件名)读取文件.json.dumps(josn格式的对象)写成字符串,json.dump(josn格式的对象,文件名)写入文件 pickle 序列化
a = pickle .dumps(josn格式的对象)写成字符串,pickle .loads(a) 读取h5
f=h5py.File(“info.h5”)创建文件。f.create_dataset(“data”,shape=(10,20))创建内容正则表达式
\d=[0~9],+表示更多
collections- collections.Counter()统计数组例每个元素出现的次数
- collections.defaultdict()
数据预处理 - sklearn
零均值:preprocessing.scale(data)
数据挖掘分类和回归:支持向量机,朴素贝叶斯,k近邻,决策树,神经网络,线性回归,多项式回归
- 聚类:k均值聚类 层级聚类
- 评价指标:损失函数 AUC指标 F1分数