一、文件打开方式,有三种常用的打开方法:r , w, a。
r :读;w:写;a:追加(基本不用)
二、文件读写
# 打开指定目录下的文件
corpus_path = "corpus/" # 语料库路径
filelist = os.listdir(corpus_path) # 获取corpus_path下的所有文件
for file_path in filelist: # 遍历类别目录下文件
fullname = corpus_path + file_path # 拼出文件名全路径
content = readfile(fullname).strip() # 读取文件内容
# 向文件写入数据
fw = open('./tfidfFile/tfidf.txt', 'a', encoding='utf-8')
for k in document_word_tfidf:
k.encode('utf-8')
fw.write(k + ' ' + str(document_word_tfidf[k]))
fw.write('\n')
fw.close()
三、数据序列化工具:
1.pickle
#使用pickle模块将数据对象保存到文件
import pickle
output = open('data.pkl', 'wb')
pickle.dump(data1, output)
output.close()
#使用pickle模块从文件中重构python对象
pkl_file = open('data.pkl', 'rb')
data1 = pickle.load(pkl_file)
pkl_file.close()
2. sklearn 自带模型保存工具
from sklearn.externals import joblib
joblib.dump(vec,'mytfidf.pkl')
vec = joblib.load('mytfidf.pkl')
3 sparse 保存稀疏矩阵
from scipy import sparse
sparse.save_npz('./tfidf.npz', train_tfidf) #保存
tfidf = sparse.load_npz('tfidf.npz') # 读
四、文件的相对路径和绝对路径
“/”:表示根目录,在windows系统下表示某个盘的根目录,如“E:\”;
“./”:表示当前目录;(表示当前目录时,也可以去掉“./”,直接写文件名或者下级目录)
“../”:表示上级目录。
五、to_csv