gensim和word2vec两种方式导入词向量 - 代码天地

gensim和word2vec两种方式导入词向量

其他 2021-03-19 16:43:31 阅读次数: 0

# 法一:
import word2vec # 不是gensim
dataPatn = "vector.txt"
'''
第一行为词表大小和维度
如：
20000 128
我 0.001 -0.002 0.004
你 0.125 -0.215 0.112
...
共20000个词，维度为128
'''
word = "他"
model = word2vec.load(dataPatn)
indices = model.similar(word,n=10)[0]
words = [model.vocab[i] for i  in indices]
print(words) # 按相似度，从大到小排列

参考文档 https://radimrehurek.com/gensim/models/keyedvectors.html

# 法二:
import gensim
from gensim.models import KeyedVectors
dataPath = "vector.txt"	# 文件带首行，如20000 128
model = KeyedVectors.load_word2vec_format(datapath, binary=False, unicode_errors="jgnore")# 注意，这里的binary非常关键
# print(model)
word = "他"
res = model.most_similar(word, topn=10)
print(res)

小例子：利用腾讯词向量，返回相似词语

from tqdm import tqdm
import word2vec

if __name__ == '__main__': 
    dataPath = 'tencent_pre_processed_with_200.txt'
    # dataPath = 'tencent_unigram.txt'
    model = word2vec.load(dataPath)
    while True:
        print('请输入查询词：')
        word = input()
        if word == 'q!':
            break
        indices, metrics = model.similar(word, n=20)
        words = model.vocab[indices]
        print(words)

猜你喜欢

转载自blog.csdn.net/tailonh/article/details/113183309

gensim和word2vec两种方式导入词向量

word2vec词向量训练及gensim的使用

词向量—Word2Vec入门及Gensim实践

gensim的word2vec如何得出词向量（python）

word2vec的两种形式和原理

使用gensim框架及Word2Vec词向量模型获取相似词

gensim ——训练word2vec词向量的使用方法。

【python gensim使用】word2vec词向量处理中文语料

文本分布式表示（三）：用gensim训练word2vec词向量

NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置

NLP 利器 Gensim 来训练自己的 word2vec 词向量模型

Python Word2Vec训练和测试词向量

word2vec训练词向量

词向量Word2Vec

word2vec词向量

Word2Vec词向量（一）

gensim中word2vec训练向量

NLP 利器 Gensim 中 word2vec 模型的内存需求，和模型评估方式

[NLP] 秒懂词向量Word2vec的本质+word2vec资源总结

用gensim实现word2vec 和 glove

gensim Word2Vec 训练和使用

word2vec是如何得到词向量的

词向量 Word2Vec 修改版

[NLP] 秒懂词向量Word2vec的本质

word2vec是如何得到词向量的？

word2vec 词向量分词效果对比

Word2Vec模型计算词向量

词向量之WORD2VEC实践

词向量 - 实际动手使用word2vec

Word2Vec词嵌入向量延伸-原理剖析

今日推荐

周排行

(BIND最佳实践)Linux运维最佳实践

makefile ifeq之坑: 1. syntax error near unexpected token 2. *** missing separator. Stop.

easyui datagrid操作栏内置图片按钮

SQLyog连接MySQL时出现的2058错误解决方法

linux音频开发

hashcode方法简析

SpringBoot中使用Transaction注解遇到的坑

逆战-CSS中子元素在父元素中的4种水平垂直居中方法

Expression.Blend.4 Chapter 图片和视频的使用

springMVC返回void值

每日归档

更多

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)