textstat 包的使用

textstat 包的函数使用文档

from textstat.textstat import textstat

这个Python包从文本计算统计信息，这有助于确定特定语料库的可读性，复杂性和成绩水平。

使用pip进行安装：$ pip install textstat

函数列表
----
### Syllable Count
函数名称 - syllable_count（text）
返回 - 给定文本中存在的音节数。

### Lexicon计数
函数名称 - lexicon_count（text，TRUE / FALSE）
计算文本中出现的字数。
TRUE / FALSE指定在计算词典时是否需要考虑标点符号。
默认值为TRUE，在计算词典之前删除标点符号。

###句子计数
函数名称 - sentence_count（文本）
返回给定文本中存在的句子的数量。

### Flesch Reading Ease公式
函数名称 - flesch_reading_ease（text）
返回Flesch Reading Ease Score。下表有助于访问文档中的易读性。
* 90-100：非常容易
* 80-89：容易
* 70-79：相当容易
* 60-69：标准
* 50-59：相当困难
* 30-49：困难
* 0-29：很混乱

### Flesch-Kincaid年级等级
函数名称 - flesch_kincaid_grade（text）
使用 Flesch-Kincaid-Grade 公式返回等级分数。
例如，9.3的分数意味着九年级的学生将能够阅读文件。

## 迷雾指数（Gunning FOG公式）
函数名称 - gunning_fog（text）
返回给定文本的迷雾指数
Gunning FOG Index 迷雾指数：反应文本的阅读难度，越低越易读。指数值是多少，就表示需要几年级的程度才能看得懂。

迷雾指数=0.4(单词总数/句子总数)+（长单词*数量/单词总数）

### SMOG指数
函数名称 - smog_index（text）
返回给定文本的SMOG烟雾指数。
作为更精确，更容易计算的Gunning雾指数的替代品。对于少于30个句子的文本表格在统计学上是无效的

###自动可读性指数
函数名称 - automated_readability_index（text）
返回ARI（自动可读性指数），输出接近理解文本所需级别的数字。
例如，如果ARI是6.5，那么理解文章的年级是6到7年级。

### Coleman-Liau指数
函数名称 - coleman_liau_index（text）
使用Coleman- Liau公式返回文本的年级级别

### Linsear Write 准则

函数名称 - linsear_write_formula（text）

使用Lisear Write 公式返回文本的年级级别

### Dale-Chall可读性评分
函数名称 - dale_chall_readability_score（text）
与其他测试不同，因为它使用最常用的3000个英文单词的查找表。
因此，它使用New Dale-Chall公式返回年级。

###可读性基于以上所有测试的一致性
函数名称 - readability_consensus（text）我使用时表示没有这个方法
基于上述所有测试，返回给定文本所属的最佳成绩等级。

猜你喜欢