通过文本构建词典 - 代码天地

通过文本构建词典

企业开发 2023-08-08 17:39:34 阅读次数: 0

# 获取单词出现频率
def word_count(file_name):
    import collections
    word_freq = collections.defaultdict(int)
    with open(file_name) as f:
        for l in f:
            for w in l.strip().split():
                word_freq[w] += 1
    return word_freq


def build_dict(file_name, min_word_freq=10):
    word_freq = word_count(file_name)  # 参见前一篇博客中的定义：https://blog.csdn.net/wiborgite/article/details/79870323
    word_freq = filter(lambda x: x[1] > min_word_freq, word_freq.items())  # filter将词频数量低于指定值的单词删除。
    word_freq_sorted = sorted(word_freq, key=lambda x: (-x[1], x[0]))
    # key用于指定排序的元素，因为sorted默认使用list中每个item的第一个元素从小到
    # 大排列，所以这里通过lambda进行前后元素调序，并对词频去相反数，从而将词频最大的排列在最前面
    words, _ = list(zip(*word_freq_sorted))
    
    # 单纯获取单词
    with open(r"data/voacb.txt",'a') as f:
        f.write('\n'.join(words))
        
    # 获取单词和单词比例
    #word_idx = dict(zip(words, range(len(words))))
    #word_idx['<unk>'] = len(words)  # unk表示unknown，未知单词
    #return word_idx

猜你喜欢

转载自blog.csdn.net/CSTGYinZong/article/details/127941102

通过文本构建词典

Python从文本构建词典

金融领域词典构建

中文情感词典的构建

通过给定文本构建数据类型，并计算总价

基于情感词典的文本情感分类

基于情感词典的文本情感分析

python-构建英语学习词典

词典

【甘道夫】通过Mahout构建贝叶斯文本分类器案例详解

干货：完全基于情感词典的文本情感分析

C++实现文本界面英语词典

Python数据预处理--Gensim构建语料词典

Ansj 通过List方式加入自定义词典

通过一本英汉词典理解HashMap原理

通过vim删除文本的行

机器学习算法Python实现：基于情感词典的文本情感分析

Python成长之路（三）——词典、文本文件的输入输出、模块、函数的参数传递

文本数据标注，支持词典导入及更多快捷方式｜ModelWhale 版本更新

NLP 模型“解语如神”的诀窍：在文本分类模型中注入外部词典

python爬虫：模拟有道词典翻译文本

如何通过源码构建GlassFish

通过Docker构建TensorFlow Serving

通过VuePress构建学习笔记

通过 Dockerfile 构建 Jdk 镜像

通过URL触发Jenkins构建

使用SO-PMI算法构建行业/专业情感词典

IKAnalyzer 3.2通过List方式加入自定义词典

通过C实现sqlite3操作，（增删改查），导入电子词典

构建语言模型（一）：文本语料处理

今日推荐

周排行

8种防盗链的方法

php的序列化和反序列化

Java 8：CompletableFuture

Android版本差异适配方案(5.0-9.0)

makedownpad使用

Spring Boot 使用AOP切面实现后台日志管理模块

实战SSM_O2O商铺_44【DES加密】关键配置信息进行DES加密

ACM排行榜说明

【转】SQL重复记录查询

板球和秃子威力那个大

每日归档

更多

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)