在获取数据时,经常会遇到
['\n文字\n']
[‘\r\r文字\r\r’]
['文\xa0\xa0字]
... ...
这样的数据 为了保证数据的清洁
使用正则表达式去除指定的元素
例如:
去除 '文\xa0\xa0\xa0\xa0字' 中\xa0只保留文字
import re
a = '文\xa0\xa0\xa0\xa0字'
s =re.sub('[\xa0]','',a)
print(s)
输出结果为:
文字
例:
import re
a = '\n\n\n文\xa0\xa0\xa0\xa0字\n\n\n'
s =re.sub('[\xa0\n]','',a)
print(s)
输出结果为:
文字