re模块相关

一.正则表达式中的转义:

　　"\" 表示转义符

　　　　[()+*?/$.] 在字符组中一些特殊的字符会现出原形

　　　　所有的\w \d \s (\n,\t) \W \D \S 都表示它原本的意义

　　　　[-]只要卸载字符组的首位的时候表示普通的减号

　　python中的转移符

　　'\n': '\' 赋予这个n一个特殊的意义,表示一个换行符

　　r:表示取消转义

二.re模块

　　1.findall: re.findall('正则表达式','字符串')

　　　　　　输出是一个列表里装着正则表达式切出来的一个个字符串

　　例:

import re
ret = re.findall('\d+','545ds5444dsd545d')
print(ret) =>['545', '5444', '545']

　　2.search:　　re.search('正则表达式','字符串')

　　　　　　输出的是正则表达式切除来的第一个符合条件的字符串

　　例:

#通过正则表达式拿第一个符合条件的值
ret1 = re.search('\d+','545dsd99sd545d')
print(ret1.group()) =>545

#通过.group 拿序号里面的值
ret1 = re.search('(\d)(\d)(\d)','545dsd99sd545d')
print(ret1.group()) =>545
print(ret1.group(1)) => 5
print(ret1.group(2)) => 4
print(ret1.group(3))=> 5

　　3.match:　　re.match('正则表达式','字符串')

　　　　　　　和search类似,都是根据正则表达式返回第一个符合条件的字符串,但match只只针对第一个的数据类型必须和正则表达式相同,如果不容则报错

　　例:

ret2 = re.match('\d+','545dsd99sd545d')
print(ret2.group()) =>545


ret2 = re.match('\d+','aa545dsd99sd545d')
print(ret2.group())=>AttributeError: 'NoneType' object has no attribute 'group'

　　4.sub/subn:　　re.sub('正则表达式','要替换的内容','执行的字符串')

　　　　　　输出的是一个字符串

　　例:

ret = re.sub('\d+','H','replace789nbc2xcz392zx')
print(ret) => replaceHnbcHxczHzx

ret = re.subn('\d+','H','replace789nbc2xcz392zx')
print(ret) => ('replaceHnbcHxczHzx', 3) #subn 会返回替换次数

　　5.split:　　re.split('正则表达式','字符串')

　　　　　　　输出的是一个列表中装着以正则表达式定义切割的多个字符串

　　　　　　　如果正则表达式用括号括起来,则输出的是一个列表中装着所有内容(包括要切掉的)

　　例:

ret = re.split('\d+','alex83egon20taibai40')
print(ret) =>['alex', 'egon', 'taibai', '']

ret = re.split('(\d+)','alex83egon20taibai40')
print(ret) =>['alex', '83', 'egon', '20', 'taibai', '40', '']

　　6.compile (会节省时间,适用于爬虫和自动化开发)

　　只有在多次使用某一个相同的正则表达式的时候,这个compile才会提高程序的效率

　　例:

re.findall('-0\.\d+|-[1-9]+(\.\d+)?','alex83egon20taibai40') 
# --> python解释器能理解的代码 --> 执行代码
ret = re.compile('-0\.\d+|-[1-9]\d+(\.\d+)?')
res = ret.search('alex83egon-20taibai-40')
print(res.group())

　　7.finditer (会节省内存)

　　例:

print(re.findall('\d','sjkhkdy982ufejwsh02yu93jfpwcmc'))
ret = re.finditer('\d','sjkhkdy982ufejwsh02yu93jfpwcmc')
for r in ret:
    print(r.group())

　　8.分组命名

　　例:

ret = re.search("<(?P<name>\w+)>\w+</(?P=name)>","<h1>hello</h1>")
print(ret.group('name'))=>h1

可以分组命名之后按名字拿值
ret = re.search('<(?P<a>\w+)>(?P<b>\w+)</(?P<c>\w+)>','<a>wahaha</b>')
print(ret.group('c')) => b

猜你喜欢