北邮数据挖掘与数据仓库 LAB1：海量文本分类实验

本文是2019学年秋季学期北邮计算机数据挖掘实验一的总结
实验模型：朴素贝叶斯，SVM

实验目的：

通过对数据仓库与数据挖掘课程的学习，了解一些数据挖掘的基本算法，在整体上认识和加深对数据挖掘的理解，并掌握以下技术：

收集语料库并对语料进行预处理；
掌握分类算法的原理，基于朴素贝叶斯算法训练文本分类器；
利用训练的文本分类器，对新输入文本进行分类；
评价分类器算法。

实验环境：

如果使用本总结处理数据请先安装Anaconda
pip install jieba; pip install sklearn
请自行阅读jieba和skleran的官方文档

操作系统：Windows10
处理器：Corei7-9750H 6核心12线程
内存: 16GB
软件环境：Python3.7，Jieba分词包，Sklearn机器学习库

Anaconda_链接
 Skleran_doc
Jieba_分词工具_doc

数据收集：

本次实验数据部分采用部分来自于爬虫收集的搜狐新闻语料库，另外一部分采用清华大学的开源语料库，共计100W条文本数据。

THUCNews是清华大学根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
THUCNews链接
 Git爬虫链接

数据处理和模型训练

分词
去除停用词
只保留名词
划分训练集和测试集
TFIDF向量化
朴素贝叶斯训练和推理
K方降维
svm训练和推理

Colaaaaaaaaaa

发布了7 篇原创文章 · 获赞 6 · 访问量 856

私信关注

北邮数据挖掘与数据仓库 LAB1：海量文本分类实验

实验目的：

实验环境：

数据收集：

数据处理和模型训练

猜你喜欢