TF_IDF文本分类简单练习

其他 2020-10-26 01:18:09 阅读次数: 0

TF_IDF文本分类记录

1.天池实验室使用
2.数据
2. 机器学习分类结果
3. 特征
参考

1.天池实验室使用

安装自己包 pip install --user xxx
查看已安装包 pip list --format=columns
安装好的包不会丢失
但服务器分配的内存其实不大，加载数据过多容易失去连接

2.数据

加载1W条数据进行训练
在这里插入图片描述
根据文本数据，换算为TF_IDF矩阵

第一次训练

estimator=SGDClassifier(loss='hinge',penalty='l2')
sgd_param_grid={
    
    'alpha':[0.0001,0.001,0.01,0.1],'l1_ratio':[0.1,0.15,0.3,0.5,1]}
grid=GridSearchCV(estimator,param_grid=sgd_param_grid,scoring='f1_macro',cv=3,verbose=1)
grid.fit(train_x,train_y)
grid.cv_results_,grid.best_params_,grid.best_score_

在这里插入图片描述
第二次训练

estimator=SGDClassifier(loss='hinge',alpha=0.0001,penalty='l2',l1_ratio=1)
sgd_param_grid={
    
    'max_iter':[10,100,1000,3000], 'tol':[0.1,0.01,0.001,0.0001]}
grid=GridSearchCV(estimator,param_grid=sgd_param_grid,scoring='f1_macro',cv=3,verbose=2)
grid.fit(train_x,train_y)
grid.cv_results_,grid.best_params_,grid.best_score_

在这里插入图片描述

在这里插入图片描述

2. 机器学习分类结果

分类器：SGDClassification
10000条数据
f1_macro_test=0.61

3. 特征

特征维度使用文本词典大小 7459维
TF_INF指数，作为文本向量

参考

猜你喜欢

转载自blog.csdn.net/hu_hao/article/details/107596855

TF_IDF文本分类简单练习

TF_IDF原理与实践

基于TF-IDF及朴素贝叶斯的短文本分类

从零开始的文本TF-IDF向量构造和基于余弦相似度的文本分类

Python文本分类【NB、LR、SVM、CNN、RNN、TF-IDF、Word2Vec、FastText】

【基础2】文本分析-TF-IDF

TF_IDF算法简述与算例实现

简单的CNN文本分类

文本分类任务的基础实现（四）——机器学习部分——特征提取_tf-idf特征+LSA特征原理介绍

【数据分析学习笔记day30】自然语言处理NLTK+文本相似度和分类 +文本相似度案例+文本分类+ TF-IDF +（词频-逆文档频率）+ 案例

鬼吹灯文本挖掘5：sklearn实现文本聚类和文本分类鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

文本分析--关键词获取（jieba分词器，TF-IDF模型）

搜索引擎优化 TF_IDF之Java实现

利用tf-idf词向量和卷积神经网络做文本多分类

文本分类

文本分类步骤

笔记-文本分类

文本分类入门

Rocchio文本分类

5.1、文本分类

大话文本分类

CNN文本分类

文本分类-TextCNN

flair文本分类

fasttext文本分类

文本分类模型

xgboost文本分类

文本分类：survey

自制文本分类

文本分类总结

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)