from textstat.textstat import textstat
这个Python包从文本计算统计信息,这有助于确定特定语料库的可读性,复杂性和成绩水平。
使用pip进行安装:$ pip install textstat
函数列表
----
### Syllable Count
函数名称 - syllable_count(text)
返回 - 给定文本中存在的音节数。
### Lexicon计数
函数名称 - lexicon_count(text,TRUE / FALSE)
计算文本中出现的字数。
TRUE / FALSE指定在计算词典时是否需要考虑标点符号。
默认值为TRUE,在计算词典之前删除标点符号。
###句子计数
函数名称 - sentence_count(文本)
返回给定文本中存在的句子的数量。
### Flesch Reading Ease公式
函数名称 - flesch_reading_ease(text)
返回Flesch Reading Ease Score。下表有助于访问文档中的易读性。
* 90-100:非常容易
* 80-89:容易
* 70-79:相当容易
* 60-69:标准
* 50-59:相当困难
* 30-49:困难
* 0-29:很混乱
### Flesch-Kincaid年级等级
函数名称 - flesch_kincaid_grade(text)
使用 Flesch-Kincaid-Grade 公式返回等级分数。
例如,9.3的分数意味着九年级的学生将能够阅读文件。
## 迷雾指数(Gunning FOG公式)
函数名称 - gunning_fog(text)
返回给定文本的迷雾指数
Gunning FOG Index 迷雾指数:反应文本的阅读难度,越低越易读。指数值是多少,就表示需要几年级的程度才能看得懂。
迷雾指数=0.4(单词总数/句子总数)+(长单词*数量/单词总数)
### SMOG指数
函数名称 - smog_index(text)
返回给定文本的SMOG烟雾指数。
作为更精确,更容易计算的Gunning雾指数的替代品。对于少于30个句子的文本表格在统计学上是无效的
###自动可读性指数
函数名称 - automated_readability_index(text)
返回ARI(自动可读性指数),输出接近理解文本所需级别的数字。
例如,如果ARI是6.5,那么理解文章的年级是6到7年级。
### Coleman-Liau指数
函数名称 - coleman_liau_index(text)
使用Coleman- Liau公式 返回文本的年级级别
### Linsear Write 准则
函数名称 - linsear_write_formula(text)
使用Lisear Write 公式返回文本的年级级别
### Dale-Chall可读性评分
函数名称 - dale_chall_readability_score(text)
与其他测试不同,因为它使用最常用的3000个英文单词的查找表。
因此,它使用New Dale-Chall公式返回年级。
###可读性 基于以上所有测试的一致性
函数名称 - readability_consensus(text) 我使用时表示没有这个方法
基于上述所有测试,返回给定文本所属的最佳成绩等级。