一个简单的正则表达式,可能会起大作用。比如说字符集就是这样。一篇文章如果有各种乱码,就可以用这种方法去除。如去除“-,$()#+&*”之类符号是很方便的。按照查找、分割、替换的套路再做一做这样的练习。今天晚了,后续还要操作文件来完善这一点。
import re
p=re.compile(r'[-,$()#+&*]')
str="156-04+31-0	$dddy*h(ih), 78dhi ,goodhi"
#查找特定单个字符
m=re.findall(p,str)
print(m)
#分割。如果一篇文章当中,要一次去掉某些特定的符号,这句很有效率
subs=re.split(p,str)
print(" ".join(subs))
#替换
print(re.sub(p," ooo ",str))
其结果是: