Kobe Bryant Shot Selection---心得总结

分析特征

1 用图形显示loc_x, loc_y,得出其是球场上坐标

2 将loc_x, loc_y转化为极坐标

3 将minutes_remaining and seconds_remaining这两个属性合并

4 通过nona.action_type.unique()命令,查看action_type这一列有哪些种类的值

5 发现没有用的属性列,可以记录,后面舍弃这些属性

6 用图形显示Shot distance和dist这两列的关系,发现是线性成比例,这样就只需保留其中一个属性

7 用图形显示shot_zone_area, shot_zone_basic, shot_zone_range的关系

8 用raw.drop舍弃不需要的列

9 如果使用随机森林,需要把字符串值改为哑变量dummy variables

10 将训练数据和测试数据分开

11 定义logloss函数,用于评测随机森林模型给出的预测值的准确性

12 双重循环,外重循环找出随机森林模型的两个参数的最优值(n_estimators , max_depth),内重循环KFold做交叉验证,将训练集分成10份,9份为训练数据,1份为测试数据

猜你喜欢

转载自www.cnblogs.com/wangzhonghan/p/10429487.html