本文是2019学年秋季学期北邮计算机数据挖掘实验一的总结
实验模型:朴素贝叶斯,SVM
实验目的:
通过对数据仓库与数据挖掘课程的学习,了解一些数据挖掘的基本算法,在整体上认识和加深对数据挖掘的理解,并掌握以下技术:
- 收集语料库并对语料进行预处理;
- 掌握分类算法的原理,基于朴素贝叶斯算法训练文本分类器;
- 利用训练的文本分类器,对新输入文本进行分类;
- 评价分类器算法。
实验环境:
如果使用本总结处理数据请先安装Anaconda
pip install jieba; pip install sklearn
请自行阅读jieba和skleran的官方文档
操作系统:Windows10
处理器:Corei7-9750H 6核心12线程
内存: 16GB
软件环境:Python3.7,Jieba分词包,Sklearn机器学习库
Anaconda_链接
Skleran_doc
Jieba_分词工具_doc
数据收集:
本次实验数据部分采用部分来自于爬虫收集的搜狐新闻语料库,另外一部分采用清华大学的开源语料库,共计100W条文本数据。
THUCNews是清华大学根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
THUCNews链接
Git爬虫链接
数据处理和模型训练
- 分词
- 去除停用词
- 只保留名词
- 划分训练集和测试集
- TFIDF向量化
- 朴素贝叶斯训练和推理
- K方降维
- svm训练和推理