机器学习算法之_几个名词约定

一、几个约定

x,y是原始的数据集。
X_train,y_train 是原始数据集划分出来作为训练模型的,
fit模型的时候用。

X_test,y_test 这部分的数据不参与模型的训练,而是用于评价训练出来的模型好坏,
score评分的时候用。

test_size=0.2 测试集的划分比例。
如果为浮点型,则在0.0-1.0之间,代表测试集的比例;
如果为整数型,则为测试集样本的绝对数量;
如果没有,则为训练集的补充。 

random_state:是随机数的种子。固定随机种子时,同样的代码,得到的训练集数据相同。
不固定随机种子时,同样的代码,得到的训练集数据不同。

train_test_split()是sklearn包的model_selection模块中提供的随机划分训练集和测试集的函数;
使用train_test_split函数可以将原始数据集按照一定比例划分训练集和测试集对模型进行训练

二、分类和回归

分类:例如机器识别癌症,分为良性和恶性;网站设置年龄分级
回归:对未来趋势的预测。例如车祸预测系统

三、训练样本集(样本数据集合)

1.样本数据集合,又叫训练样本集,比如判断一个人是男是女,首先要见过男或者女,
类似于参照物,这个之前见过的样本就相当于是训练样本集,找训练样本集是第一步
2.标签(并且是训练样本集中每一个数据都对应着唯一的标签)
3.输入没有标签的新数据:测试数据
新数据的每个特征与样本集中数据对应的 特征进行比较

发布了388 篇原创文章 · 获赞 71 · 访问量 12万+

猜你喜欢

转载自blog.csdn.net/ZZQHELLO2018/article/details/103969432