textstat 包的使用

 textstat 包的函数使用文档

from textstat.textstat import textstat 

这个Python包从文本计算统计信息,这有助于确定特定语料库的可读性,复杂性和成绩水平。

使用pip进行安装:$ pip install textstat 

函数列表
---- 
### Syllable Count 
函数名称 - syllable_count(text)
返回 - 给定文本中存在的音节数。

### Lexicon计数
函数名称 - lexicon_count(text,TRUE / FALSE)
计算文本中出现的字数。
TRUE / FALSE指定在计算词典时是否需要考虑标点符号。
默认值为TRUE,在计算词典之前删除标点符号。

###句子计数
函数名称 - sentence_count(文本)
返回给定文本中存在的句子的数量。

### Flesch Reading Ease公式
函数名称 - flesch_reading_ease(text)
返回Flesch Reading Ease Score。下表有助于访问文档中的易读性。
* 90-100:非常容易
* 80-89:容易
* 70-79:相当容易
* 60-69:标准
* 50-59:相当困难
* 30-49:困难
* 0-29:很混乱

### Flesch-Kincaid年级等级
函数名称 - flesch_kincaid_grade(text)
使用 Flesch-Kincaid-Grade 公式返回等级分数。
例如,9.3的分数意味着九年级的学生将能够阅读文件。

## 迷雾指数(Gunning FOG公式)
函数名称 - gunning_fog(text)
返回给定文本的迷雾指数
Gunning FOG Index 迷雾指数:反应文本的阅读难度,越低越易读。指数值是多少,就表示需要几年级的程度才能看得懂。

迷雾指数=0.4(单词总数/句子总数)+(长单词*数量/单词总数)

### SMOG指数
函数名称 - smog_index(text)
返回给定文本的SMOG烟雾指数。
作为更精确,更容易计算的Gunning雾指数的替代品。对于少于30个句子的文本表格在统计学上是无效的


###自动可读性指数
函数名称 - automated_readability_index(text)
返回ARI(自动可读性指数),输出接近理解文本所需级别的数字。
例如,如果ARI是6.5,那么理解文章的年级是6到7年级。

### Coleman-Liau指数
函数名称 - coleman_liau_index(text)
使用Coleman- Liau公式 返回文本的年级级别

### Linsear Write 准则

函数名称 - linsear_write_formula(text)

使用Lisear Write 公式返回文本的年级级别

### Dale-Chall可读性评分
函数名称 - dale_chall_readability_score(text)
与其他测试不同,因为它使用最常用的3000个英文单词的查找表。
因此,它使用New Dale-Chall公式返回年级。

###可读性 基于以上所有测试的一致性  
函数名称 - readability_consensus(text)            我使用时表示没有这个方法
基于上述所有测试,返回给定文本所属的最佳成绩等级。

猜你喜欢

转载自blog.csdn.net/qq_22930277/article/details/79263739