版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/m0_37975258/article/details/81940130
直接上代码吧:
# -*- coding: utf-8 -*
import jieba
import jieba.posseg as pseg
import os,sys
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
if __name__ == '__main__':
corpus=["我 来到 北京 清华大学",
"他 来到 网易 杭研 大厦",
"小明 硕士 毕业 于 中国 科学院",
"我 爱 北京 天安门"]
vectorizer=CountVectorizer()
transformer=TfidfTransformer()
tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))
word=vectorizer.get_feature_names()
weight=tfidf.toarray()
for i in range(len(weight)):
print(u"--------这里输入第",i,u"类文本的词语tf-idf权重-----")
for j in range(len(word)):
print(word[j],weight[i][j])