本文链接： https://blog.csdn.net/shuzhuchengfu/article/details/102548433

机器学习 scikit-learn 数据集

数据集划分

训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效

sklearn 数据集接口介绍

sklearn.model_selection.train_test_split
load*和fetch* 返回的数据类型datasets.base.Bunch(字典格式）

data： 特征数据数组，是[n_samples*n_features]的二维numpy.ndarray数组
target： 标签数组，是n_samples的一维numpy.ndarray数组
DESCR： 数据描述
feature_names: 特征名，新闻数据，手写数字、回归数据集没有
target_names: 标签名

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

def load_iris_demo():
    li = load_iris()
    print("获取特征值 %s" % ("=" * 50))
    print(li.data)
    print("获取目标值 %s" % ("=" * 50))
    print(li.target)
    print("获取特征名 %s" % ("=" * 50))
    print(li.feature_names)
    print("获取标签名 %s" % ("=" * 50))
    print(li.target_names)
    print("获取描述 %s" % ("=" * 50))
    print(li.DESCR)
    # 数据集进行分割
    # 训练集特征值，测试集特征值，训练集目标值，测试集目标值
    x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
    print("训练集的特征值： %s" % ("=" * 50))
    print(x_train)
    print("训练集的目标值： %s" % ("=" * 50))
    print(y_train)
    print("测试集的特征值： %s" % ("=" * 50))
    print(x_test)
    print("测试集的特征值： %s" % ("=" * 50))
    print(y_train)

sklearn 分类数据集

from sklearn.datasets import fetch_20newsgroups, clear_data_home
# 用于分类的大数据集
# subset all 所有 test 测试 train 训练
news = fetch_20newsgroups(subset='all')
print(news.data)
print(news.target)
# 清除目录下的数据集
clear_data_home()

sklearn 回归数据集

# 加载并返回波士顿房价数据集
sklearn.datasets.load_boston()
# 加载并返回糖尿病数据集
sklearn.datasets.load_diabetes()

机器学习 scikit-learn 数据集

机器学习 scikit-learn 数据集

数据集划分

sklearn 数据集接口介绍

sklearn 分类数据集

sklearn 回归数据集

猜你喜欢