1、交叉验证:为了让被评估的模型更加准确可信
交叉验证:将拿到的数据,分为训练和验证集。以下图为例:将数据分
成5份,其中一份作为验证集。然后经过5次(组)的测试,每次都更换不同
的验证集。即得到5组模型的结果,取平均值作为最终结果。又称5折交叉
验证。
2、网格搜索
很多情况下,有很多参数是需要手动指定的(比如k近邻算法的k值),也就是超参数,不过手动输入很麻烦。每组超参数都采用交叉验证来进行评估,选择最优的结果。
API:
sklearn.model_selection.GridSearchCV
GridSearchCV(estimator, param_grid=None,cv=None)
- estimator:估计器
- 估计器参数,param_grid = {“n_neighbors”:[1,3,5]}
- cv:几折交叉验证
- fit:训练
- score:准确率
结果分析: - best_score_:最好的结果
- best_estimator_:最好的参数模型
- cv_results_:交叉验证的结果