由于本人都在colab上跑程序,
就不展示具体如何安装这个Autogluon包啦,
网上有文档教
Autogluon厉害在于会自己特征提取
省去了人工预处理的很多时间
本人亲测,将int类型的归一化,str类型的哑变量处理后
跑的效果和没处理的一样
本教程仅是分类任务,其他类型的还得去官网文档好好看看
import pandas as pd
from autogluon.tabular import TabularDataset,TabularPredictor
train_data = TabularDataset('train.csv')
test_data = TabularDataset('test.csv')
id,label = 'user_id', 'Label'
predictor = TabularPredictor(label=label).fit(train_data.drop(columns=[id]))
preds = predictor.predict(test_data.drop(columns=[id]))
submission = pd.DataFrame({
id:test_data[id],label:preds})
submission.to_csv('submission.csv',index=False)
要想获得更好的效果
可以在源数据上适当预处理一下。
例如有些有些数值型比较大的,可以log一下
import numpy as np
large_val_col = ['A','C','S','G','K']
for i in large_val_col:
train[c] = np.log(train[c] + 1)
就先写这么多,后续有新知识就继续更