import jieba
#全模式
sentence='我喜欢武汉欢乐谷'
w1=jieba.cut(sentence,cut_all=True)#(句子,模式[True全模式,False精准模式])
for item in w1:
print(item)
print()
#精准模式
w2=jieba.cut(sentence,cut_all=False)#去掉cut_all这个参数,默认为精准模式
for item in w2:
print(item)
print()
#搜索引擎切分
w3=jieba.cut_for_search(sentence)#搜索引擎模式
for item in w3:
print(item)
#词性标注
import jieba.posseg
w4=jieba.posseg.cut(sentence)
#.flag词性;.word词语
for item in w4:
print(item.word+'---'+item.flag)
print()
'''
a:代表形容词;c:代表连词;d:副词;e:叹词;f:方位词;i:成语
m:数词; n:名词; nr:人名; ns:地名; nt:机构团体
nz:其他专有名词; p:介词 r:代词 t:时间 u:助词
v:动词 vn:动名词 w:标点符号 un:未知词语
'''
#词典加载自己添加的词典
jieba.load_userdict('C:/Python/Python37-32/Lib/site-packages/jieba/dict2.txt')
sentence2='武汉有限公司是一个很好的机构'
w5=jieba.posseg.cut(sentence2)
for item in w5:
print(item.word+'---'+item.flag)
#更改词频
sentence3='我喜欢武汉欢乐谷'
w6=jieba.cut(sentence3,cut_all=True)
for item in w6:
print(item)
print()
#jieba.add_word('欢乐谷')#只是添加到词典
jieba.suggest_freq('欢乐谷',True)
w7=jieba.cut(sentence3)
for item in w7:
print(item)
import jieba.analyse
print()
#提取关键词
tag=jieba.analyse.extract_tags(sentence3,3)#提取关键字,3为个数
print(tag)
print()
#返回词语的位置
w8=jieba.tokenize(sentence3)
for item in w8:
print(item)
print()
w9=jieba.tokenize(sentence3,mode='search')#搜索引擎位置
for item in w9:
print(item)
#分析盗墓笔记词频
import jieba
import jieba.posseg
import jieba.analyse
data=open('E:/programCode/daomubiji.txt').read()
tag=jieba.analyse.extract_tags(data,30)
print(tag)
python文本挖掘
猜你喜欢
转载自blog.csdn.net/xx20cw/article/details/84454430
今日推荐
周排行