一.简介
1.RF-IDF【term frequency-inverse document frequency】是一种用于检索与探究的常用加权技术。
2.TF-IDF是一种统计方法,用于评估一个词对于一个文件集或一个语料库中的其中一个文件的重要程度。
3.词的重要性随着它在文件中出现的次数的增加而增加,但同时也会随着它在语料库中出现的频率的升高而降低。
二.词频
指的是某一个给定的词语在一份给定的文件中出现的次数。这个数字通常会被归一化,以防止它偏向长的文件【同一个词语在文件里可能会比短文件有更高的词频,而不管该词重要与否】。
公式:
ni,j:是该词在文件dj中出现的次数,而分母则是在文件dj中所有词出现的次数之和。
三.逆文档频率
是一个词普遍重要性的度量。某一个特定词的IDF可以由总文件数目除以包含该词语的文件数据,再将得到的商取对数得到。
公式:
|D|:语料库中的文件总数
|{j:ti€dj}|:包含ti的文件总数
四.TF-IDF
公式:TF-IDF = TF * IDF
特点:某一特定文件内的高频率词语,以及该词语在整个语料库中的低文件频率,可以产生高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。
思想:如果某个词或短语在一篇文章中出现的频率TF高,并且在其它文章中很少出现,则认为此词或短语具有很好的类别区分能力,适合用来分类。
五.代码实现
未完待续。。。