分析特征
1 用图形显示loc_x, loc_y,得出其是球场上坐标
2 将loc_x, loc_y转化为极坐标
3 将minutes_remaining and seconds_remaining这两个属性合并
4 通过nona.action_type.unique()命令,查看action_type这一列有哪些种类的值
5 发现没有用的属性列,可以记录,后面舍弃这些属性
6 用图形显示Shot distance和dist这两列的关系,发现是线性成比例,这样就只需保留其中一个属性
7 用图形显示shot_zone_area, shot_zone_basic, shot_zone_range的关系
8 用raw.drop舍弃不需要的列
9 如果使用随机森林,需要把字符串值改为哑变量dummy variables
10 将训练数据和测试数据分开
11 定义logloss函数,用于评测随机森林模型给出的预测值的准确性
12 双重循环,外重循环找出随机森林模型的两个参数的最优值(n_estimators , max_depth),内重循环KFold做交叉验证,将训练集分成10份,9份为训练数据,1份为测试数据