最近在学习《机器学习实战》这本书,在做到里面第08章的时候发生了一些小错误,具体内容如下:
数据总共有4177行,9列,最后一列为鲍鱼的年龄,为标签值,前8列为数据特征,数据集中的数据长这个样子:
在读取数据的时候,定义了loaddata()函数,最初时候定义的函数如下:
#示例:鲍鱼年龄预测—数据读取
def loaddata_abalone(filename):
f = open(filename)
num = len(f.readline().strip().split()) - 1 #数据特征的数目
data = []
label = []
for i in f.readlines():
line = i.strip().split() #将字符串分割返还的是列表
temp = []
for j in range(num):
temp.append(float(line[j]))
data.append(temp)
label.append([float(line[-1])])
return data,label
data,label= loaddata_abalone(r'E:\MLiA_SourceCode\machinelearninginaction\Ch08\abalone.txt')
data = np.mat(data)
print(data.shape)
print(data)
结果为:
经过比较发现,data中没有读取第一行的数据,通过分析发现这是因为在计算num的时候,已经读取了第一行来计算特征值的数目:
num = len(f.readline().strip().split()) - 1
所以在下面的循环中f.readlines()是从数据的第二行开始的,所以会少一行。
将代码改为如下形式:
#示例:鲍鱼年龄预测—数据读取
def loaddata_abalone(filename):
f = open(filename)
num = len(open(filename).readline().strip().split()) - 1 #数据特征的数目---更改这个部位,将f.readline() 改为 open(filename).readline()
data = []
label = []
for i in f.readlines():
line = i.strip().split() #将字符串分割返还的是列表
temp = []
for j in range(num):
temp.append(float(line[j]))
data.append(temp)
label.append([float(line[-1])])
f.close()
return data,label
data,label= loaddata_abalone(r'E:\MLiA_SourceCode\machinelearninginaction\Ch08\abalone.txt')
data = np.mat(data)
print(data.shape)
print(data)
只更改num部分,将其中f.readline() 改为 open(filename).readline()。
num = len(open(filename).readline().strip().split()) - 1
运行改正后的代码,结果如下:
与原数据对比,可知此次数据读取正常。