01. 匹配单个字符

Python正则表达式中的re.S

.	匹配任意1个字符（除了\n）如若想要匹配\n 需要使用re.S
[ ]	匹配[ ]中列举的字符
\d	匹配数字，即0-9
\D	匹配非数字，即不是数字
\s	匹配空白，即 空格，tab键
\S	匹配非空白
\w	匹配单词字符，即a-z、A-Z、0-9、_
\W	匹配非单词字符

e.match() 能够匹配出以xxx开头的字符串

import re

ret = re.match(".", "too")
print(ret.group())

** 结果为 t **

02. 匹配多个字符

*	匹配前一个字符出现0次或者无限次，即可有可无
+	匹配前一个字符出现1次或者无限次，即至少有1次
?	匹配前一个字符出现1次或者0次，即要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m,n}	匹配前一个字符出现从m到n次

import re

ret = re.match("[A-Z][a-z]*","MnnM")
print(ret.group())

ret = re.match("[A-Z][a-z]*","Aabcdef")
print(ret.group())

** 结果为 **

Mnn
Aabcdef

03. 匹配开头字符

^	匹配字符串开头
$	匹配字符串结尾

import re

email_list = ["[email protected]", "[email protected]", "[email protected]"]

for email in email_list:
    ret = re.match("[\w]{4,20}@163\.com$", email)
    if ret:
        print("%s 是符合规定的邮件地址,匹配后的结果是:%s" % (email, ret.group()))
    else:
        print("%s 不符合要求" % email)

04. 匹配分组

|	匹配左右任意一个表达式
(ab)	将括号中字符作为一个分组
\num	引用分组num匹配到的字符串
(?P<name>)	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

1. 匹配出0-100之间的数字

import re

ret = re.match("[1-9]?\d$|100", "01")
if ret:
    print(ret.group())
else:
    print("不在0-100之间")

2. 匹配出163、126、qq邮箱

import re

ret = re.match("\w{4,20}@(163|126|qq)\.com", "[email protected]")
if ret:
    print(ret.group())
else:
    print("不是163、126、qq邮箱")  # 不是163、126、qq邮箱

3. 不是以4、7结尾的手机号码(11位)

import re

tels = ["13100001234", "18912344321", "10086", "18800007777"]

for tel in tels:
    ret = re.match("1\d{9}[0-35-68-9]", tel)
    if ret:
        print(ret.group())
    else:
        print("%s 不是想要的手机号" % tel)

4. 提取区号和电话号码

import re

ret = re.match("([^-]*)-(\d+)", "010-12345678")
if ret:
    print(ret.group())
    print(ret.group(1))
    print(ret.group(2))
else:
    print("error...")

05. 匹配出 `<html><h1>www.itcast.cn</h1></html>`

1. \number

import re

labels = ["<html><h1>www.itcast.cn</h1></html>", "<html><h1>www.itcast.cn</h2></html>"]

for label in labels:
    # 通过引用分组中匹配到的数据即可，但是要注意是元字符串，即类似 r""这种格式
    ret = re.match(r"<(\w*)><(\w*)>(.*)</\2></\1>", label)
    if ret:
        print("%s 是符合要求的标签" % ret.group())
        print(ret.group(1))
        print(ret.group(2))
        print(ret.group(3))
    else:
        print("%s 不符合要求" % label)

2. (?P) (?P=name)

import re

ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.itcast.cn</h1></html>")
# 按照名字获取相应的分组内容
ret1 = ret.group("name1")
ret2 = ret.group("name2")
print(ret1)
print(ret2)

ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.itcast.cn</h2></html>")
ret = ret.group()
print(ret)

# 注意：(?P<name>)和(?P=name)中的字母p大写

06. re模块的高级用法

1. search

import re

ret = re.search(r"\d+", "阅22读次数为 9999")
print(ret.group())

结果为： 22

2. findall

import re

ret = re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
print(ret)

**结果为：[‘9999’, ‘7890’, ‘12345’] **

3. sub 将匹配到的数据进行替换

** 方法1 **

import re

ret = re.sub(r"\d+", '998', "python = 997 Java = 993")
print(ret)

** 方法2 **

import re


def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)


ret = re.sub(r"\d+", add, "python = 997")
print(ret)

ret = re.sub(r"\d+", add, "python = 99")
print(ret)

**结果为：python = 998 Java = 998 **

07. 提取html中的一段文本(这个在爬虫中很重要的哦)

import re

str = '''
<div>
        <p>岗位职责：</p>
<p>完成推荐算法、数据统计、接口、后台等服务器端相关工作</p>
<p><br></p>
<p>必备要求：</p>
<p>良好的自我驱动力和职业素养，工作积极主动、结果导向</p>
<p>&nbsp;<br></p>
<p>技术要求：</p>
<p>1、一年以上 Python 开发经验，掌握面向对象分析和设计，了解设计模式</p>
<p>2、掌握HTTP协议，熟悉MVC、MVVM等概念以及相关WEB开发框架</p>
<p>3、掌握关系数据库开发设计，掌握 SQL，熟练使用 MySQL/PostgreSQL 中的一种<br></p>
<p>4、掌握NoSQL、MQ，熟练使用对应技术解决方案</p>
<p>5、熟悉 Javascript/CSS/HTML5，JQuery、React、Vue.js</p>
<p>&nbsp;<br></p>
<p>加分项：</p>
<p>大数据，数理统计，机器学习，sklearn，高性能，大并发。</p>

        </div>
'''

ret = re.sub(r"<[^>]*>|&nbsp;|\n", "", str)
# ret = re.sub(r"<\w*>|</\w*>|&nbsp;|\n", "", str)
print(ret)

08. split 根据匹配进行切割字符串，并返回一个列表

import re

ret = re.split(r":| ", "info:xiaoZhang 33 shandong")
print(ret)

09. python贪婪和非贪婪

Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；

非贪婪则相反，总是尝试匹配尽可能少的字符。

在"*","?","+","{m,n}"后面加上？，使贪婪变成非贪婪。

import re

s="This is a number 234-235-22-423"
r = re.match(".+(\d+-\d+-\d+-\d+)", s)
print(r.group(1))

r = re.match(".+?(\d+-\d+-\d+-\d+)", s)
print(r.group(1))

正则表达式模式中使用到通配字，那它在从左到右的顺序求值时，会尽量“抓取”满足匹配最长字符串，在我们上面的例子里面，
“.+”会从字符串的启始处抓取满足模式的最长字符，其中包括我们想得到的第一个整型字段的中的大部分，“\d+”只需一位字符
就可以匹配，所以它匹配了数字“4”，而“.+”则匹配了从字符串起始到这个第一位数字4之前的所有字符。

解决方式：非贪婪操作符“？”，这个操作符可以用在"*","+","?"的后面，要求正则匹配的越少越好。

10. 提取Url

import re

s = '<img data-original="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" ' \
    'src="https://rpic.douyucdn.cn/appCovers/2016/11/13/1213973_201611131917_small.jpg" style="display: inline;"> '

ret = re.search(r"https://.*?\.jpg", s)
print(ret.group())

11. r的作用

import re

mm = "c:\\a\\b\\c"
print(mm)
ret = re.match(r"c:\\a",mm).group()
print(ret)

Python中字符串前面加上 r 表示原生字符串，

与大多数编程语言相同，正则表达式里使用"\"作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\"，
那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\"：前两个和后两个分别用于在编程语言里转义成反斜杠，转换
成两个反斜杠后再在正则表达式里转义成一个反斜杠。

Python里的原生字符串很好地解决了这个问题，有了原生字符串，你再也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

r'\nab' == '\\nab'
Out[2]: True

re.match(r"\nab","\\nab").group() // 报错

注意：1. 在python正则表达中尽可能的使用原始字符串，待匹配的字符串中看到什么就在正则表达式写什么，就不会出现问题
      2. ‘\n’长度为1，r’\n’长度为2

12. 判断变量名是否符合要求

import re


def main():
    names = ["age", "_age", "1age", "age1", "a_age", "age_1_", "age!", "a#123", "__________"]
    for name in names:
        # ret = re.match(r"[a-zA-Z_][a-zA-Z0-9_]*", name)
        # ^规定开头  $规定结尾
        # python中的match默认是从头开始判断的所以，在match中可以不写^，但是match不会判断结尾，所以
        # 当需要以xxx结尾的时候 还需要写上$
        ret = re.match(r"^[a-zA-Z_][a-zA-Z0-9_]*$", name)
        if ret:
            print("变量名:%s 符合要求....通过正则匹配出来的数据是:%s" % (name, ret.group()))
        else:
            print("变量名:%s 不符合要求...." % name)


if __name__ == "__main__":
    main()

13. 常用的正则表达式方法

re.compile（编译）
pattern.match（从头找一个）
pattern.search（找一个）
pattern.findall（找所有）
pattern.sub（替换）

越奋斗，越幸运

发布了85 篇原创文章 · 获赞 12 · 访问量 3751

私信关注

10. Python之正则表达式

01. 匹配单个字符

02. 匹配多个字符

03. 匹配开头字符

04. 匹配分组

1. 匹配出0-100之间的数字

2. 匹配出163、126、qq邮箱

3. 不是以4、7结尾的手机号码(11位)

4. 提取区号和电话号码

05. 匹配出 `<html><h1>www.itcast.cn</h1></html>`

1. \number

2. (?P) (?P=name)

06. re模块的高级用法

1. search

2. findall

3. sub 将匹配到的数据进行替换

07. 提取html中的一段文本(这个在爬虫中很重要的哦)

08. split 根据匹配进行切割字符串，并返回一个列表

09. python贪婪和非贪婪

10. 提取Url

11. r的作用

12. 判断变量名是否符合要求

13. 常用的正则表达式方法

猜你喜欢

10. Python之正则表达式

01. 匹配单个字符

02. 匹配多个字符

03. 匹配开头字符

04. 匹配分组

1. 匹配出0-100之间的数字

2. 匹配出163、126、qq邮箱

3. 不是以4、7结尾的手机号码(11位)

4. 提取区号和电话号码

05. 匹配出 <html><h1>www.itcast.cn</h1></html>

1. \number

2. (?P) (?P=name)

06. re模块的高级用法

1. search

2. findall

3. sub 将匹配到的数据进行替换

07. 提取html中的一段文本(这个在爬虫中很重要的哦)

08. split 根据匹配进行切割字符串，并返回一个列表

09. python贪婪和非贪婪

10. 提取Url

11. r的作用

12. 判断变量名是否符合要求

13. 常用的正则表达式方法

猜你喜欢

05. 匹配出 `<html><h1>www.itcast.cn</h1></html>`