数据处理——数据集划分 - 代码天地

数据处理——数据集划分

其他 2018-08-31 10:15:27 阅读次数: 0

数据集划分

一般在日常工作中我们会将数据集拆分为训练集（train_set）和测试集（test_set）

训练集：一般用于训练模型，需要尽可能保证训练的数据具有代表性。
测试集：用于测试模型，检测模型的性能（包括了运行时间，模型的效果等）

trian_test_split(*arrays,train_size,test_size,ramdom_state)

*arrays：表示需要进行划分的数据，可以为多个
train_size：训练集所占总数据的比例，0-1的浮点数，无默认
test_size：测试集所占总数据的比例，和train_size相加为1，在填写了train_size的情况下可以省略
random_state：设置随机种子，保证后续每次划分的结果相同

from sklearn.datasets import load_iris  # 鸢尾花
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris['data']
y = iris['target']
X_train,X_test,y_train,y_test = train_test_split(X,y,train_size=0.8,random_state = 123)
print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)

(120, 4) (30, 4) (120,) (30,)

猜你喜欢

转载自www.cnblogs.com/WoLykos/p/9564025.html

数据处理——数据集划分

数据集划分处理

深度学习之数据处理——如何将图片和标签打乱并划分为训练集和测试集

海量数据处理专题5——双层桶划分

R语言-数据处理-样本集划分

sklearn 数据集划分和数据预处理

数据集划分问题

划分数据集

数据集划分

sklearn数据集划分

UCI数据集详解及其数据处理（附148个数据集及处理代码）

数据划分处理代码

海量数据处理

Oracle——数据处理

数据处理

大数据处理

RocketMq数据处理

json数据处理

线程的数据处理

数据处理函数

pandas 数据处理

数据处理(转)

数据处理练习

R 数据处理

python数据处理

GPS数据处理

异步数据处理

Excel数据处理

数据处理概论

Python --数据处理

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)