TF_IDF文本分类简单练习

1.天池实验室使用

安装自己包 pip install --user xxx
查看已安装包 pip list --format=columns
安装好的包不会丢失
但服务器分配的内存其实不大,加载数据过多容易失去连接

2.数据

加载1W条数据进行训练
在这里插入图片描述
根据文本数据,换算为TF_IDF矩阵
在这里插入图片描述
第一次训练

estimator=SGDClassifier(loss='hinge',penalty='l2')
sgd_param_grid={
    
    'alpha':[0.0001,0.001,0.01,0.1],'l1_ratio':[0.1,0.15,0.3,0.5,1]}
grid=GridSearchCV(estimator,param_grid=sgd_param_grid,scoring='f1_macro',cv=3,verbose=1)
grid.fit(train_x,train_y)
grid.cv_results_,grid.best_params_,grid.best_score_

在这里插入图片描述
第二次训练

estimator=SGDClassifier(loss='hinge',alpha=0.0001,penalty='l2',l1_ratio=1)
sgd_param_grid={
    
    'max_iter':[10,100,1000,3000], 'tol':[0.1,0.01,0.001,0.0001]}
grid=GridSearchCV(estimator,param_grid=sgd_param_grid,scoring='f1_macro',cv=3,verbose=2)
grid.fit(train_x,train_y)
grid.cv_results_,grid.best_params_,grid.best_score_

在这里插入图片描述

在这里插入图片描述

2. 机器学习分类结果

分类器:SGDClassification
10000条数据
f1_macro_test=0.61

3. 特征

特征维度使用文本词典大小 7459维
TF_INF指数,作为文本向量

参考

  1. sklearn scoring
  2. sklearn girdsearch
  3. tqdm
  4. yied

猜你喜欢

转载自blog.csdn.net/hu_hao/article/details/107596855