Python文本词频统计 - 代码天地

Python文本词频统计

其他 2018-05-10 11:15:55 阅读次数: 1

背景信息

本文实现英文文本词频统计，功能与Mapreduce中的wordcount是类似的。本文主要是为之后词向量训练做准备工作。

本地实现词频统计函数，输入一个文本文件，最终以dict的形式返回词频统计信息。

说明：如果输入为英文文本，则可以直接处理；如果是中文文本，则需要先进行分词等预处理工作。

详细代码

def word_count(file_name):
    import collections
    word_freq = collections.defaultdict(int)
    with open(file_name) as f:
        for l in f:
            for w in l.strip().split():  
                word_freq[w] += 1
    return word_freq
    #return word_freq.items()   该语句返回值的类型为list

strip()删除空白符（包括'/n', '/r','/t'）；split()以空格分割字符串

输入参数——file_name: 表示输入文件名，类型String
返回值：返回值为dict，注释行则可以返回list类型的值。

测试示例

如下示例在Jupyter Notebook中实现，输入文件为《教父》英文小说，通过上述函数统计出每个单词出现的概率。

猜你喜欢

转载自blog.csdn.net/wiborgite/article/details/79870323

Python文本词频统计

【Python】文本词频统计

Python之文本词频统计

Python-文本词频统计

Python实例--文本词频统计

【文本处理词频统计】python 实现词频统计

python day 17 文本词频统计

二级python——文本词频统计

Python实例分析——文本词频统计

统计文本词频的几种方法（Python）

文本词频统计

Python英文文本词频统计——读取英文文本进行词频统计并输出

Python文本词频统计的编码问题-MOOC嵩天

通过简单几行Python语句，统计文本单词词频

Python小程序：文本词频统计（英文+中文）

【python】英文文本分词词频统计

Python之jieba库（例：文本词频统计）

Python项目实践：文本词频统计、软文的诗词风

Python实现文本词频统计算法及完整代码

实例10：文本词频统计

jieba和文本词频统计

python词频统计

python实现词频统计

Python 词频统计

Python 简易词频统计

统计词频 -- Python

python统计词频

词频统计（python）

Python之词频统计

python --统计词频Counter

今日推荐

周排行

四大线程池详解

如何高效使用Vim

Mogodb的常用操作总结

Spyder默认页面布局调整

SAR日志分析

OAuth是一个关于授权（authorization）的开放网络标准，在全世界得到广泛应用，目前的版本是2.0版。本文对OAuth 2.0的设计思路和运行流程，做一个简明通俗的解释，主要参考材料为R

WebService中注解开发，CXF，Spring整合，Rest风格

2019考研英语一 Text1分析

windows下安装docker详细步骤

CentOS 7/6系统升级内核版本到5.2.2

每日归档

更多

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)

2024-07-27(0)