背景
- 训练文本分类模型 需要对文本中的数字、特殊符号预处理
思路
1 既然是提取数字,那么数字的形式一般是:整数,小数,整数加小数;
2 所以一般是形如:----.-----;
3 根据上述正则表达式的含义,可写出如下的表达式:"\d+.?\d*";
4 \d+匹配1次或者多次数字,注意这里不要写成*,因为即便是小数,小数点之前也得有一个数字;.?这个是匹配小数点的,可能有,也可能没有;\d*这个是匹配小数点之后的数字的,所以是0个或者多个
code
# -*- coding: cp936 -*-
import re
string="A1.45,b5,6.45,8.82"
print(re.findall(r"\d+\.?\d*",string)) # 查找
# ['1.45', '5', '6.45', '8.82']
res = re.sub(r"\d+\.?\d*", "", string) # 过滤
- 其他 类似:
- 如 过滤中英文标点和特殊符号
- 过滤换行符等特俗符号
# 替换 空格 \t \r \n
import re
str1='123 456 7\t8\r9\n10'
str1 = re.sub('[\s+]', '', str1)
print(str1)