TF_IDF文本分类记录
1.天池实验室使用
安装自己包 pip install --user xxx
查看已安装包 pip list --format=columns
安装好的包不会丢失
但服务器分配的内存其实不大,加载数据过多容易失去连接
2.数据
加载1W条数据进行训练
根据文本数据,换算为TF_IDF矩阵
第一次训练
estimator=SGDClassifier(loss='hinge',penalty='l2')
sgd_param_grid={
'alpha':[0.0001,0.001,0.01,0.1],'l1_ratio':[0.1,0.15,0.3,0.5,1]}
grid=GridSearchCV(estimator,param_grid=sgd_param_grid,scoring='f1_macro',cv=3,verbose=1)
grid.fit(train_x,train_y)
grid.cv_results_,grid.best_params_,grid.best_score_
第二次训练
estimator=SGDClassifier(loss='hinge',alpha=0.0001,penalty='l2',l1_ratio=1)
sgd_param_grid={
'max_iter':[10,100,1000,3000], 'tol':[0.1,0.01,0.001,0.0001]}
grid=GridSearchCV(estimator,param_grid=sgd_param_grid,scoring='f1_macro',cv=3,verbose=2)
grid.fit(train_x,train_y)
grid.cv_results_,grid.best_params_,grid.best_score_
2. 机器学习分类结果
分类器:SGDClassification
10000条数据
f1_macro_test=0.61
3. 特征
特征维度使用文本词典大小 7459维
TF_INF指数,作为文本向量