《机器学习实战》——python 中关于文件读取的正确打开方式

最近在学习《机器学习实战》这本书，在做到里面第08章的时候发生了一些小错误，具体内容如下：

数据总共有4177行，9列，最后一列为鲍鱼的年龄，为标签值，前8列为数据特征，数据集中的数据长这个样子：

在读取数据的时候，定义了loaddata（）函数，最初时候定义的函数如下：

#示例：鲍鱼年龄预测—数据读取
def loaddata_abalone(filename):
    f = open(filename)
    num = len(f.readline().strip().split()) - 1   #数据特征的数目
    data = []
    label = []
    for i in f.readlines():
        line = i.strip().split()          #将字符串分割返还的是列表
        temp = []
        for j in range(num):
            temp.append(float(line[j]))
        data.append(temp)
        label.append([float(line[-1])])
    return data,label
data,label= loaddata_abalone(r'E:\MLiA_SourceCode\machinelearninginaction\Ch08\abalone.txt')
data = np.mat(data)
print(data.shape)
print(data)

结果为：

经过比较发现，data中没有读取第一行的数据，通过分析发现这是因为在计算num的时候，已经读取了第一行来计算特征值的数目：

num = len(f.readline().strip().split()) - 1

所以在下面的循环中f.readlines()是从数据的第二行开始的，所以会少一行。

将代码改为如下形式：

#示例：鲍鱼年龄预测—数据读取
def loaddata_abalone(filename):
    f = open(filename)
    num = len(open(filename).readline().strip().split()) - 1   #数据特征的数目---更改这个部位，将f.readline() 改为 open(filename).readline()
    data = []
    label = []
    for i in f.readlines():
        line = i.strip().split()          #将字符串分割返还的是列表
        temp = []
        for j in range(num):
            temp.append(float(line[j]))
        data.append(temp)
        label.append([float(line[-1])])
    f.close()
    return data,label
data,label= loaddata_abalone(r'E:\MLiA_SourceCode\machinelearninginaction\Ch08\abalone.txt')
data = np.mat(data)
print(data.shape)
print(data)

只更改num部分，将其中f.readline() 改为 open(filename).readline()。

num = len(open(filename).readline().strip().split()) - 1

运行改正后的代码，结果如下：

与原数据对比，可知此次数据读取正常。

《机器学习实战》——python 中关于文件读取的正确打开方式

猜你喜欢