本篇文章用于解决《python与数据挖掘》张良均这本书中的第二章的实验三。进行数据的划分。
题目如下:
+给出文本数据,数据为UCI数据库的疝气病症预测病马数据,数据有多行,每行有22列个数据,前21个为马的病症数据,最后一个为该马的标签。判断其是否有病,实验要求将前21列存入一个二位列表data中,标签数据单独存入一个列表label中
具体代码为:
import numpy as np
dataArr=[]
fr=open('/home/yang/code/2/2.2/data/horseColic.txt')
for line in fr.readlines():
line=line.strip() #去掉换行符
data_line = line.split("\t") #通过制表符分割数据,并使用列表存储数据
dataArr.append(data_line)
a=np.array(dataArr)
label=a[:,-1]
data= a[:,[i for i in range(0,21)]]
print(data)
print(label)
fr.close()
代码可能有些冗余。新手练手之用。如若有更好的想法请留言。谢谢