版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
机器学习 scikit-learn 数据集
数据集划分
- 训练数据:用于训练,构建模型
- 测试数据:在模型检验时使用,用于评估模型是否有效
sklearn 数据集接口介绍
sklearn.model_selection.train_test_split
load*和fetch* 返回的数据类型datasets.base.Bunch(字典格式)
- data: 特征数据数组,是[n_samples*n_features]的二维numpy.ndarray数组
- target: 标签数组,是n_samples的一维numpy.ndarray数组
- DESCR: 数据描述
- feature_names: 特征名,新闻数据,手写数字、回归数据集没有
- target_names: 标签名
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def load_iris_demo():
li = load_iris()
print("获取特征值 %s" % ("=" * 50))
print(li.data)
print("获取目标值 %s" % ("=" * 50))
print(li.target)
print("获取特征名 %s" % ("=" * 50))
print(li.feature_names)
print("获取标签名 %s" % ("=" * 50))
print(li.target_names)
print("获取描述 %s" % ("=" * 50))
print(li.DESCR)
# 数据集进行分割
# 训练集特征值,测试集特征值,训练集目标值,测试集目标值
x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)
print("训练集的特征值: %s" % ("=" * 50))
print(x_train)
print("训练集的目标值: %s" % ("=" * 50))
print(y_train)
print("测试集的特征值: %s" % ("=" * 50))
print(x_test)
print("测试集的特征值: %s" % ("=" * 50))
print(y_train)
sklearn 分类数据集
from sklearn.datasets import fetch_20newsgroups, clear_data_home
# 用于分类的大数据集
# subset all 所有 test 测试 train 训练
news = fetch_20newsgroups(subset='all')
print(news.data)
print(news.target)
# 清除目录下的数据集
clear_data_home()
sklearn 回归数据集
# 加载并返回波士顿房价数据集
sklearn.datasets.load_boston()
# 加载并返回糖尿病数据集
sklearn.datasets.load_diabetes()