［例说NLP］使用gensim处理wiki百科中文数据 - 代码天地

［例说NLP］使用gensim处理wiki百科中文数据

其他 2019-01-19 14:45:38 阅读次数: 0

step1.获取维基百科数据

下载链接：http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

step2.第三方包gensim自带处理类：

class WikiCorpus(TextCorpus):
    def __init__(self, fname, processes=None, lemmatize=utils.has_pattern(),         dictionary=None,
                 filter_namespaces=('0',), tokenizer_func=tokenize, article_min_tokens=ARTICLE_MIN_WORDS,
                 token_min_len=TOKEN_MIN_LEN, token_max_len=TOKEN_MAX_LEN, lower=True):

解释一下各个参数（整理这些只为梳理一下自己的思路，大神直接绕路就好）

fname: str类型，输入wiki数据文件路径

processes: int类型，线程数取值范围：1~~cpu数-1

lemmatize: bool类型,词元化如果安装了pattern就

dictionary:Dictionary

filter_namespaces: str组成的元祖

tokenizer_func:

article_min_tokens: int类型

token_max_len: int类型

lower: bool类型

核心工作区

  inp, outp = sys.argv[1:3]
    space = " "
    i = 0
    output = open(outp, 'w')
    wiki = WikiCorpus(inp, lemmatize=False, dictionary={})
    for text in wiki.get_texts():
        output.write(space.join(text) + "\n")
        i += 1
        if(i % 10000 == 0):
            logger.info("saved " + str(i) + " articles")

猜你喜欢

转载自blog.csdn.net/jade07/article/details/81434088

［例说NLP］使用gensim处理wiki百科中文数据

windows环境下使用wiki中文百科及gensim工具库训练词向量

小项目（Gensim库）--维基百科中文数据处理

【wiki维基百科中文数据集】抽取wiki数据集——实操

Anconda3使用gensim训练中文维基百科语料库

WIKi 百科爬虫

中文维基百科数据处理

基于Gensim的维基百科语料库中文词向量训练

【Python3】基于Gensim的维基百科语料库中文词向量训练

中文维基百科获取与处理流程

使用中文维基百科进行GloVe实验

Gensim训练维基百科语料库

汉语-词语-的说：百科

python中用gensim做wiki的中文数据word2vector处理

02-NLP-gensim中文处理案例

zhwiki：中文维基百科数据获取与处理，抽取文本，opencc繁简转化，词向量训练

wiki中文文本语料下载，在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例

抓取维基百科数据

我的维基百科wikipedia的配置(中文维基百科配置)

卷积的数学意义及信号学应用卷积(转自wiki百科）

设计模式（1）——简介（翻译自维基百科wiki）

数字证书认证机构（摘录自wiki百科）

不翻墙就可访问维基（wiki）百科的方法

测试百科：白盒测试用例的设计

BoneCP百科

JNA百科

代码百科

维基百科

XMPP百科

Jabber百科

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)