经典的把一篇英文文章转成word2id形式的dict的一段python程序 - 代码天地

经典的把一篇英文文章转成word2id形式的dict的一段python程序

其他 2020-01-27 22:29:03 阅读次数: 0

import collections

import tensorflow as tf


def _read_words(filename):
  with tf.gfile.GFile(filename, "r") as f:
    return f.read().decode("utf-8").replace("\n", "<eos>").split()


def _build_vocab(filename):
  data = _read_words(filename)

  counter = collections.Counter(data)
  count_pairs = sorted(counter.items(), key=lambda x: (-x[1], x[0]))

  words, _ = list(zip(*count_pairs))
  word_to_id = dict(zip(words, range(len(words))))

  return word_to_id

摘自 https://github.com/tensorflow/models/blob/master/tutorials/rnn/ptb/reader.py

发布了103 篇原创文章 · 获赞 399 · 访问量 139万+

他的留言板关注

猜你喜欢

转载自blog.csdn.net/jdbc/article/details/80755593

经典的把一篇英文文章转成word2id形式的dict的一段python程序

统计SQuAD的词汇得到word2id 并把词都转成id的python代码

Python实现统计一篇英文文章内每个单词的出现频率的两种很好解法

统计一篇英文文章中出现次数最多的10个单词

Python 使用正则表达式将一段英文文本切割成单词列表

用C语言将中文文本和英文文本合并为一段中文一段英文（翻译排版）

topK问题——统计一篇很长的英文文章中频次出现最高的10个单词

Java | PTA：jmu-Java-m06 统计一篇英文文章中出现的不重复单词的个数

一段Python

提高文章质量近期尽快把第一篇 AD7705 调试程序搞出来作为这一段时间的文章

生成一段唯一的id

python 2的一篇不错的讲解编码的文章

[机器学习]一篇文章理解 word2vec

向Word添加一段文本

Python与Word：无限可能，一篇文章带你入门

统计一篇英文文章内每个单词出现频率，并返回出现频率最高的前10个单词及其出现次数

翻译一篇英文文章，主要是给自己看的——在ASP.NET Core Web Api中如何刷新token

很经典的一段shell 代码

一篇非常经典的文章（面向接口编程）

10、一篇经典的域渗透文章

【经典】【转载】一篇文章读懂区块链

立杆儿：向上青年---今天开始每天翻译一篇英文文档（2018.11.22）

一篇英文文档中找出频数最多的10个单词

python查看一段程序的运行时长

写一段爬虫程序，用python

帮我写一段python程序

一篇文章秒懂形态学变化的所有形式及其Python实现

python实现输入一段英文单词后，倒叙输出

一段英文中找无重复单词及个数

计算一段英文里的单词出现次数

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)