简单文本挖掘(二)、关键词及主体模型 - 代码天地

简单文本挖掘(二)、关键词及主体模型

其他 2018-07-27 10:11:16 阅读次数: 0

做一个简单的jieba分词，然后提取top个关键词，最后获取主题模型。

代码：

import pandas as pd
import jieba as jieba
from jieba import analyse
from jieba import posseg
import gensim
import warnings
warnings.filterwarnings('ignore')
txt = ''
with open('背影.txt',encoding='gbk') as f:
    for i in f.readlines():
        i.split()
        txt += i
#得到前二十个关键词
top20 = analyse.extract_tags(txt,20,withWeight=True)
for i in range(20):
    print(top20[i])
print('-------------------')
w = jieba.lcut(txt)
stop = ''
with open('stoplist.txt',encoding='utf-8') as f:
    for i in f.readlines():
        stop +=i

'''filter() 函数用于过滤序列，过滤掉不符合条件的元素，返回由符合条件元素组成的新列表。
该接收两个参数，第一个为函数，第二个为序列，序列的每个元素作为参数传递给函数进行判，
然后返回 True 或 False，最后将返回 True 的元素放到新列表中'''

word = filter(lambda x:len(x)>1,w)
word = list(filter(lambda x:x not in stop,word))
#打印词性  内参数必须放字符串
cixing = posseg.lcut(str(word))
print(cixing)
#转为为字典前的格式好像必须是 列表内的列表 如 [[1],[2]]
word = pd.Series(word).map(lambda x:[x])
#生成语料
dict = gensim.corpora.Dictionary(word)
#可以输出映射关系
# print(dict.token2id)
#将词表转化为词袋  前一个是索引 后一个是次数
words = [dict.doc2bow(i) for i in word]
#第一个词袋 第二个主题个数 第三个语料
lda = gensim.models.LdaModel(words,num_topics=5,id2word=dict)
#打印每一个主题
for i in lda.print_topics():
    print(i)

输出结果如下：

猜你喜欢

转载自blog.csdn.net/weixin_42792500/article/details/81223981

简单文本挖掘(二)、关键词及主体模型

挖掘网站关键词的方法

如何挖掘和布局关键词

使用预训练的BERT模型解决文本二分类和关键词提取

python数据挖掘实战笔记——文本分析（6）：关键词提取

简单爬虫+词云+主体模型

『关键词挖掘』结合 LDA + Word2Vec + TextRank 实现关键词的挖掘

怎么挖掘长尾关键词 SEO关键词挖掘方法教程

鬼吹灯文本挖掘4：LDA模型提取文档主题 sklearn LatentDirichletAllocation和gensim LdaModel 鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

文本关键词提取小结

文本关键词提取算法

文本关键词提取二三事

文本关键词提取方法综述

Python高亮文本中的关键词

长尾关键词是什么？如何挖掘长尾词？

鬼吹灯文本挖掘2：wordcloud 词云展示鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

文本分析--关键词获取（jieba分词器，TF-IDF模型）

关键词抽取模型得总结

优化长尾关键词有什么好处？在线长尾关键词挖掘

长尾关键词使用方法，通过什么方式挖掘长尾关键词？

鬼吹灯文本挖掘3：关键词提取extract_tags和使用sklearn TfidfTransformer 计算TF-IDF矩阵鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

鬼吹灯文本挖掘1：jieba分词和CountVectorizer向量化鬼吹灯文本挖掘3：关键词提取和使用sklearn 计算TF-IDF矩阵

电商网站：关键词挖掘的4个策略！

挖掘有价值的搜索关键词

五大SEO核心关键词挖掘方法

如何挖掘适合网站SEO优化的关键词

长尾关键词挖掘工具和使用方法

挖掘长尾关键词的方法有那些

如何通过 Python 挖掘带流量 Seo 关键词

【天津SEO】长尾关键词挖掘的八种技巧

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)