NLTK（处理原始文本） - 代码天地

NLTK（处理原始文本）

其他 2018-07-27 01:51:42 阅读次数: 0

从网络访问文本

1. 电子书

import nltk
from urllib.request import urlopen

url="http://www.gutenberg.org/files/2554/2554-0.txt"
raw = urlopen(url).read()
print (type(raw))
print (len(raw))
print (raw[:75])

输出

<class 'bytes'>
1201733
b'\xef\xbb\xbfThe Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsk'

python3 中变量 raw 是 bytes类型，需要通过str类型和bytes类型的转换，才能调用分词的函数nltk.word_tokenize()

c=str(raw,encoding='utf-8')  ##将字节转换成字符
print (type(c))

tokens = nltk.word_tokenize(c)  #分词
print (type(tokens))
print (len(tokens))
print (tokens[:10])

输出

<class 'str'>
<class 'list'>
257726
['\ufeffThe', 'Project', 'Gutenberg', 'EBook', 'of', 'Crime', 'and', 'Punishment', ',', 'by']

把分词得到的list 变成text，便可以如第一章一样对text操作

text = nltk.Text(tokens)
print (type(text))

<class 'nltk.text.Text'>

读取本地文件

document.txt 放在和.py文件在同一个目录

f = open('document.txt')
raw = f.read()     
print (type(raw))   #classs 'str'
print (raw)

文件放在桌面

f = open(r'C:\Users\Administrator.LYH-20170315DBK\Desktop\document.txt')

猜你喜欢

转载自blog.csdn.net/csdn_lzw/article/details/80411406

NLTK（处理原始文本）

英文原始文本的读取与处理

用词嵌入的方法处理原始文本

NLTK 字符串文本预处理全部代码示例

第三章-处理原始文本

自然语言处理 | (4)英文文本处理与NLTK

python机器学习——NLTK及分析文本数据（自然语言处理基础）

Python NLTK结合stanford NLP工具包进行文本处理

数据处理之文本分词、MMSEG分词工具、斯坦福NLTK分词工具

【深度学习】NLTK入门与实战：文本分析与自然语言处理

NLTK入门二：NLTK文本分析初步

[转]【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理阅读目录【NLP】干货！Python NLTK结合stanford NLP工具包进行文本处理

python3.x如何从互联网获取想要的文章，及转化为nltk可以处理的文本

【python】NLTK-好用的文本处理工具，主要用于英文数据（中文不太实用）

RNN文本分类——从原始数据处理到预测类别标签

第三章-处理原始文本(Natural Language Processing with Python第二版)

python文本分析-NLTK安装

NLTK实现文本切分

NLTK文本分类入门——判别谣言

Python文本分析（NLTK,jieba,snownlp）

NLTK

Python自然语言处理-学习笔记(3) —— 处理原始文本、正则表达式学习

nltk：python自然语言处理一

nltk:python自然语言处理二

python自然语言处理-—安装NLTK

自然语言处理NLTK之入门

自然语言处理基础——NLTK

【数据分析学习笔记day26】自然语言处理NLTKPython文本分析工具NLTK 情感分析+ 文本相似度 +文本分类 +分类预测模型+朴素贝叶斯+ 实战案例+微博情感分析

【数据分析学习笔记day30】自然语言处理NLTK+文本相似度和分类 +文本相似度案例+文本分类+ TF-IDF +（词频-逆文档频率）+ 案例

【NLTK基础教程】02 何为文本歧义

今日推荐

周排行

8种防盗链的方法

php的序列化和反序列化

Java 8：CompletableFuture

Android版本差异适配方案(5.0-9.0)

makedownpad使用

Spring Boot 使用AOP切面实现后台日志管理模块

实战SSM_O2O商铺_44【DES加密】关键配置信息进行DES加密

ACM排行榜说明

【转】SQL重复记录查询

板球和秃子威力那个大

每日归档

更多

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)