NLTK学习总结(一)

一、NLTK介绍

NLTK(Natural Language Toolkit) 是一个先进的用于构建处理人类语言数据的python应用的开源平台。它提供了超过50多个素材库和词库资源的易用接口,其中有很多文本处理库,可以用来给文本分类,符号化,提取词根,贴标签,解析,语义推理,或者打包成工业级的自然语言处理库。

二、下载安装

官网下载地址http://www.nltk.org/install.html,支持各种系统。不过需要注意,先要安装python才能安装该平台。我当时用的是Anaconda2,其中集成的python没有被NLTK的安装程序识别出来,但是我的windows命令行里却可以运行python命令,后来在试图重新安装python的过程中我发现anaconda真的是太强大了,库里边已经集成了nltk的包,根本无需自己安装。同时里边还集成了常用的numpy和matplotlib包,使用起来非常方便,这里附上一个下载地址:
https://www.continuum.io/downloads

NLTK还为我们提供了很多素材库,我们可以使用nltk.download()方法下载,该方法会跳出一个对话框,我们可以选取部分有用过的素材库和必要的处理包,因为如果全部下载的话太大,非常耗时。
比如我这里只用Corpora中的brown素材库。
这里写图片描述
这里附上一个nltk素材库的下载地址和简介,大家根据自己的情况下载即可。http://www.nltk.org/nltk_data/

猜你喜欢

转载自blog.csdn.net/fegnkuang/article/details/52687191