文本数据格式化基本技巧 - 代码天地

文本数据格式化基本技巧

其他 2019-01-07 12:15:48 阅读次数: 0

文本分析算法需要格式化文本数据，最基本的处理方式为：

1.全部文本转化为小写

2.提取词干

注意：词干提取或许不完美，比如将“famous”提取为“famou”，但是只要它在所有文档中都一致就行。

3.去掉标点

实例：


# text normalization
text = 'Having shown how this small “document” would be represented, let’s use it for something.'

# lowerizing
text = text.lower()

# eliminate punctuations
import string
# make translating table:x->y note:len(x) == len(y)
transtab = str.maketrans(string.punctuation+'”“‘’', ' '*(len(string.punctuation)+4))
text = text.translate(transtab)

#stemming
from nltk.stem.porter import PorterStemmer
# note PorterStemmer is a function which should be represented as PorterStemmer()
text = [PorterStemmer().stem(i) for i in text.split()]

输出一个以单词为特征的特征向量：

text
Out[112]: 
['have',
 'shown',
 'how',
 'thi',
 'small',
 'document',
 'would',
 'be',
 'repres',
 'let',
 's',
 'use',
 'it',
 'for',
 'someth']

猜你喜欢

转载自blog.csdn.net/zs15321583801/article/details/84061198

文本数据格式化基本技巧

文本中包含字典的数据格式化方法

数据格式化

常用文本数据格式

opencv基本数据格式Mat

基本数据类型与格式化输出

springmvc之数据格式化

Java 数据格式化

Flex之数据格式化

Jquery数据格式化

json数据格式化功能

python 文件与数据格式化

SpringMVC数据格式化

JSTL数据格式化

spring mvc数据格式化

echarts数据格式化

SpringMVC—数据格式化

文件与数据格式化

66 # form 数据格式化

springMVC-数据格式化

点云库的基本数据格式

基础补充（三）——基本数据类型、格式化输出、基本运算符

格式化输出与基本数据类型与基本运算符

用户交换基本数据类型基本运算符格式化输出

H5页面显示后台文本数据，格式化

SpringMVC的数据转换&&数据格式化&&数据校验

Spring的数据格式化和数据校验

u盘格式化数据恢复，数据格式化如何恢复

Java高级之数据格式化

SpringMVC 16.数据格式化

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)