- 通过标准的Python库导入CSV文件
- 通过NumPy导入CSV文件
- 通过Pandas导入CSV文件
1) CSV 文件
CSV文件使用逗号(,)分隔的文本文件。
在审查CSV文件时,需要注意以下几个方面:
文件头、文件中的注释、分隔符、引号。
(1)通过标准的Python库导入CSV文件
python 提供了一个标准类库CSV,用来处理CSV文件。
这个类库中的reader()函数用来读入CSV文件。当CSV文件被读入后,可以利用这些数据生成一个Numpy数组,用来训练算法模型。
from csv import reader
import numpy as np
filename='pima_data.csv' #这个文件中国所有数据都是数字,并且数据中不包含文件头。
with open(filename,'rt') as raw_data:
readers = reader(raw_data, delimiter=',')
x=list(readers)
data=np.array(x).astype('float')
print(data.shape)
(2)采用Numpy 导入CSV文件
可以使用Munpy的loadtxt()函数导入数据。使用这个函数处理的数据没有文件头,并且所有的数据结构都是一样的,也就是说,数据类型都是一样的。
import numpy as np
filename='pima_data.csv'
with open(filename,'rt') as raw_data:
data=loadtxt(raw_data,delimiter=',')
print(data.shape)
(3)采用Pandas 导入CSV文件——机器学习项目中常用来做数据清洗与数据准备工作。推荐使用。
使用Pandas来导入文件需要使用pandas.read_csv()函数。这个函数的返回值是DataFrame,可以很方便地进行下一步的处理。
from pandas import read_csv
filename='iris.data.csv'
names=['separ-length','separ-width','petal-length','petal-width','class']
dataset=read_csv(filename,names=names)
print(dataset.shape)