初级爬虫(二)

正则专题一

import re
# re.findall(re,str)  基本语法
s1="total income is $750000,pretty good income"
a=re.findall("income",s1)
print(a)
a=re.findall("income$",s1)#从后匹配
print(a)
a=re.findall("$750000",s1)#$没有转义
print(a)
a=re.findall("\$750000",s1)#$有转义
print(a)
a=re.findall("[0-9]+",s1)
print(a)
a=re.findall("[^0-9]+",s1)#[]中的^是取非的意思,在[]外是从头开始匹配,不一样
print(a)

正则专题二

import re
# re.findall(re,str)  基本语法
url="https://www.baidu.com/asdioiqd/dacqefqe"
a=re.findall("https://(.+?)/",url)#只返回()中的内容
print(a)
a=re.sub("(?<=https://).*?(?=/)","xinglang",url)#字符串替换,只替换中间的.*?前后部分辅助限制
print(a)

猜你喜欢

转载自blog.51cto.com/14156081/2360674