sklearn----数据集操作

数据集存放在sklearn下的datasets中
导入格式如下

sklearn.datasets.load_<name>#导入数据的代码
返回类字典格式

1.鸢尾花数据

from sklearn.datasets import load_iris
import numpy as np
iris=load_iris()
print(iris.keys())
print(iris.data[0:10:2])
print(iris.target_names)
print(np.bincount(iris.target))
#一些基本操作

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])
[[5.1 3.5 1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [5.  3.6 1.4 0.2]
 [4.6 3.4 1.4 0.3]
 [4.4 2.9 1.4 0.2]]
['setosa' 'versicolor' 'virginica']
[50 50 50]

我们发现key的返回类型是字典表，通过numpy和pandas以及matpltlib的操作就可以对这些数据进行操作
2.手写数字数据

from sklearn.datasets import load_digits
import matplotlib.pyplot as plt

digits = load_digits()
# print(digits.keys())
# x, y = digits.data.shape
# print('{},{}'.format(x, y))
fig = plt.figure(figsize=(6, 6))#figsize设置画布的大小
fig.subplots_adjust(left=0, right=1, bottom=0, top=1, hspace=0.05, wspace=0)
for i in range(64):
    ax = fig.add_subplot(8, 8, i + 1, xticks=[], yticks=[])#ticks用于更改每一幅图像的标签
    ax.imshow(digits.images[i], cmap=plt.cm.binary, interpolation='nearest')#cmap转化为二值图像（灰白图像），不加是彩色的
    ax.text(0, 7, str(digits.target[i]))#给每幅图片加标签
plt.show（）

在这里插入图片描述
3.乳腺癌数据集(用作二分类的数据集)
4.波士顿房价（用于回归的数据集）
5.svmlight/libsvm数据
sklearn.datasets.load_svmlight_file(“路径”)
6.可下载数据集（（以下数据均需要下载））
sklearn.datasets.fetch_
此文件默认下载到自动生成的/sckikit_leaarn_data/目录下

from sklearn.datasets import fetch_20newsgroups_vectorized
#直接对导入的数据提取特征（向量）并返回一个bunch类型的数据

稍微麻烦的方法如下（参考别人的）
在这里插入图片描述
7.人脸数据

sklearn.datasets.fetch_lfw_pairs()

8.Olivetti数据集

sksklearn.datasets.fetch_olivetti_faces()

8.rcv1多标签数据集

sksklearn.datasets.fetch_rcv1（）

sklearn----数据集操作

猜你喜欢