Python对象存储：pickle模块的使用讲解

在机器学习中，我们常常需要把训练好的模型存储起来，这样在进行决策时直接将模型读出，而不需要重新训练模型，这样就大大节约了时间。Python提供的pickle模块就很好地解决了这个问题，它可以序列化对象并保存到磁盘中，并在需要的时候读取出来，任何对象都可以执行序列化操作。

Pickle模块中最常用的函数为：

（1）pickle.dump(obj, file, [,protocol])

函数的功能：将obj对象序列化存入已经打开的file中。

参数讲解：

obj：想要序列化的obj对象。
file:文件名称。
protocol：序列化使用的协议。如果该项省略，则默认为0。如果为负值或HIGHEST_PROTOCOL，则使用最高的协议版本。

（2）pickle.load(file)

函数的功能：将file中的对象序列化读出。

参数讲解：

file：文件名称。

（3）pickle.dumps(obj[, protocol])

函数的功能：将obj对象序列化为string形式，而不是存入文件中。

参数讲解：

obj：想要序列化的obj对象。
protocal：如果该项省略，则默认为0。如果为负值或HIGHEST_PROTOCOL，则使用最高的协议版本。

（4）pickle.loads(string)

函数的功能：从string中读出序列化前的obj对象。

参数讲解：

string：文件名称。

【注】 dump() 与 load() 相比 dumps() 和 loads() 还有另一种能力：dump()函数能一个接着一个地将几个对象序列化存储到同一个文件中，随后调用load()来以同样的顺序反序列化读出这些对象。

【代码示例】

pickleExample.py

[python]view plain copy
#coding:utf-8  
__author__ = 'MsLili'  
#pickle模块主要函数的应用举例  
import pickle  
dataList = [[1, 1, 'yes'],  
            [1, 1, 'yes'],  
            [1, 0, 'no'],  
            [0, 1, 'no'],  
            [0, 1, 'no']]  
dataDic = { 0: [1, 2, 3, 4],  
            1: ('a', 'b'),  
            2: {'c':'yes','d':'no'}}  
  
#使用dump()将数据序列化到文件中  
fw = open('dataFile.txt','wb')  
# Pickle the list using the highest protocol available.  
pickle.dump(dataList, fw, -1)  
# Pickle dictionary using protocol 0.  
pickle.dump(dataDic, fw)  
fw.close()  
  
#使用load()将数据从文件中序列化读出  
fr = open('dataFile.txt','rb')  
data1 = pickle.load(fr)  
print(data1)  
data2 = pickle.load(fr)  
print(data2)  
fr.close()  
  
#使用dumps()和loads()举例  
p = pickle.dumps(dataList)  
print( pickle.loads(p) )  
p = pickle.dumps(dataDic)  
print( pickle.loads(p) )  

结果为：

二、学习训练模型存储

k-均值聚类（尤其是使用如Lloyd’s算法的启发式方法的聚类）即使是在巨大的数据集上也非常容易部署实施。正因为如此，它在很多领域都得到的成功的应用，如市场划分、机器视觉、地质统计学、天文学和农业等。它经常作为其他算法的预处理步骤，比如要找到一个初始设置。

from sklearn import cluster,datasets
import numpy as np 

iris = datasets.load_iris()
X = iris.data
y = iris.target
km = cluster.KMeans(n_clusters = 3)
km.fit(X)
k_y = km.predict(X)
#根据实际情况设置映射
k2y = np.array([1,0,2])
print(k2y[k_y])
print((k2y[k_y] == y).astype(int).mean())

用pickle模块的方法保存训练后的模型，方便下次直接使用。

import pickle
with open('cc_kmean.pkl','wb') as f:
    pickle.dump(km,f)
with open('cc_kmean.pkl','rb') as f:
    cc_km = pickle.load(f)
print(cc_km.predict(X))
print((k2y[cc_km.predict(X)] == y).astype(int).mean())

Python对象存储：pickle模块的使用讲解

猜你喜欢