01 前言

上一篇文章已经详细介绍了什么是爬虫，爬虫的一些基本需要掌握的概念，还有爬虫掌握的第一个库，requests库，具体大家可以点击这里:爬虫（一） – 带你了解爬虫最基本概念，一文即可实践

接下来，我将详细介绍爬虫的另一个很需要的工具，正则表达式。

此文参考了以下链接：
https://blog.csdn.net/xuemoyao/article/details/8033138?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522168006967216800215067670%2522%252C%2522scm%2522%253A%252220140713.130102334…%2522%257D&request_id=168006967216800215067670&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2_alltop_positive~default-2-8033138-null-null.142^v77insert_down38,201^v4add_ask,239^v2insert_chatgpt&utm_term=%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F&spm=1018.2226.3001.4187

02 正则表达式

定义：正则表达式是用于处理字符串的强大工具，通常被用来检索、替换那些符合某种规则的文本。

2.1 `re`库

Python通过re库提供对正则表达式的支持，但在使用正则表达式之前需要导入re模块，才能调用该模块的功能函数。

re的常用几个参数

re.I：使匹配忽略大小写
re.M：允许多行匹配
re.S：匹配包括换行在内的所有字符

在Python中，使用正则表达式通常需要使用re模块。常用的几种方式包括：

re.search(pattern, string)：在字符串中搜索与正则表达式匹配的第一个子字符串，并返回一个包含匹配信息的Match对象。如果没有匹配到，则返回None。
re.findall(pattern, string)：在字符串中搜索与正则表达式匹配的所有子字符串，并以列表形式返回。如果没有匹配到，则返回空列表。
re.sub(pattern, repl, string)：在字符串中搜索与正则表达式匹配的所有子字符串，并将其替换为指定的字符串repl。返回替换后的字符串。

以下是一个按行输出的示例代码：

import re

# 定义要匹配的正则表达式
pattern = r'^\d+\..*'

# 打开文件
with open('example.txt', 'r') as f:
    # 按行读取文件内容
    for line in f:
        # 使用re.match()函数进行匹配
        match_obj = re.match(pattern, line)
        # 如果匹配成功，则输出该行内容
        if match_obj:
            print(line.strip())

在上面的代码中，首先定义了要匹配的正则表达式，该表达式可以匹配以数字开头，后面跟任意字符的行。然后打开文件，按行读取文件内容，并使用re.match()函数对每行内容进行匹配。如果匹配成功，则输出该行内容。

注意，strip()函数可以去掉字符串两端的空格和换行符。

2.2 正则表达式的参数

比较常用的两个参数：
在正则表达式中，.和?都是元字符，具有特殊的含义。

.代表匹配任意单个字符（除了换行符）。

例如，正则表达式a.b可以匹配axb、a#b、a b等。

?代表匹配前面的子表达式0次或1次。

例如，正则表达式ab?c可以匹配ac和abc，但不能匹配abbc。

?也可以用在其他元字符后面，用于表示非贪婪匹配。例如，正则表达式a.*?b可以匹配ab、axxxb等，但在匹配axxxbyyyb时，只会匹配到axxxb。

需要注意的是，.和?只有在正则表达式中作为元字符时才具有上述特殊含义，如果需要匹配它们本身，需要使用转义字符\。例如，正则表达式a.b可以匹配a.b，但不能匹配axb、a#b等。

2.2.1 常用的元字符

代码	说明
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线或汉字
\s	匹配任意的空白符
\d	匹配数字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

实例：

^\d{8}$ 匹配8位数字的qq号。
\bOlive\b 匹配单词Olive 。

注意： I Love Oliver and Olive .这个时候返回的是Olive 而不是Oliver,因为\b…\b返回的匹配的单词

2.2.2 反义字符

反义字符：多用于查找除某个字符以外其他任意字符均可以的情况。

代码/语法	说明
\W	匹配任意不是字母，数字，下划线，汉字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^data]	匹配除了data这几个字母以外的任意字符

2.2.3 限定字符

限定字符:限定字符多用于重复匹配次数。

代码/语法	说明
`*`	重复零次或更多次
`+`	重复一次或更多次
?	子字符串重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

2.2.4 转义字符

转义字符：加\。

实例：如元字符 . * \ 需要转换为 \. \* \\

字符分枝：多用于满足不同情况的选择，用“|”将不同的条件分割开来，比如有些固定电话区号有三位，有些有四位，这个时候可以采用字符分枝

例如：\d{3}-\d{8}|\d{4}-\d{8} 可以匹配两种不同长度区号的固定电话

2.2.5 字符分组

字符分组多用于将多个字符重复，主要通过使用小括号()来进行分组

形如：（\d\w){3} 重复匹配3次（\d\w)

常用分组语法:

分类	代码	说明
捕获	(exp)	匹配exp,并捕获文本到自动命名的组里
	(?< name >exp)	匹配exp,并捕获文本到名称为name的组里，也可以写成(?'name'exp)
	(?:exp)	匹配exp,不捕获匹配的文本，也不给此分组分配组号
零宽断言	(?=exp)	匹配exp前面的位置
	(?<=exp)	匹配exp后面的位置
	(?!exp)	匹配后面跟的不是exp的位置
	(?<!exp)	匹配前面不是exp的位置
注释	(?#comment)	这种类型的分组不对正则表达式的处理产生任何影响，用于提供注释让人阅读

2.2.6 懒惰匹配和贪婪匹配

贪婪匹配：正则表达式中包含重复的限定符时，通常的行为是匹配尽可能多的字符。

懒惰匹配：有时候需要匹配尽可能少的字符。

例如： a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。但是我们此时可能需要匹配的是ab这样的话就需要用到懒惰匹配了。懒惰匹配会匹配尽可能少的字符。

代码/语法	说明
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

2.2.7 后向引用

后向引用用于重复搜索前面某个分组匹配的文本。

使用小括号指定一个子表达式后，匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理。默认情况下，每个分组会自动拥有一个组号。

默认组号：
示例：\b(\w+)\b\s+\1\b可以用来匹配重复的单词，像go go, 或者kitty kitty。

这个表达式首先是一个单词，也就是单词开始处和结束处之间的多于一个的字母或数字(\b(\w+)\b)，这个单词会被捕获到编号为1的分组中，然后是1个或几个空白符(\s+)，最后是分组1中捕获的内容（也就是前面匹配的那个单词）(\1)。

自主指定：你也可以自己指定子表达式的组名。
要指定一个子表达式的组名，请使用这样的语法：(?< Word>\w+)(或者把尖括号换成’也行：(?‘Word’\w+)),这样就把\w+的组名指定为Word了。要后向引用这个分组捕获的内容，你可以使用\k< Word>,所以上一个例子也可以写成这样：\b(?< Word>\w+)\b\s+\k< Word>\b

2.2.8 零宽断言

有时候需要查找某些匹配之前或之后的东西，这个时候就需要指定一个位置，这个位置应该满足一定的条件(即断言)。具体请看本章的2.2.5

比如\b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)，如查找I’m singing while you’re dancing.时，它会匹配sing和danc。
比如(?<=\bre)\w+\b会匹配以re开头的单词的后半部分(除了re以外的部分)，例如在查找reading a book时，它匹配ading。

2.3 常用的正则表达式

如果你自己实在学不会正则表达式，请点击这里，转载自其他大神：点击这里，他里面归纳了基本所有你想要的用的正则表达式。
如果里面没有你想要的，请私信我。

2.4 正则表达式的实例

(1) 抓取html里面的<title>间的内容

#方法一
title = re.findall(r'<title>(.*?)</title>', content.decode('utf-8'))

# 方法二
pat = r'(?<=<title>).*?(?=</title>)'    
ex = re.compile(pat, re.M|re.S)
obj = re.search(ex, content.decode('utf-8'))
title = obj.group()  
print(title)

（2）爬取超链接<a>标签间的内容

#获取完整超链接
res = r"<a.*?href=.*?<\/a>"
urls = re.findall(res, content.decode('utf-8'))

#获取超链接<a>和</a>之间内容
res = r'<a .*?>(.*?)</a>'  
texts = re.findall(res, content.decode('utf-8'), re.S|re.M)

（3）抓取超链接标签的url

res = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
urls = re.findall(res, content, re.I|re.S|re.M)
for url in urls:
    print(url)

（4）抓取图片超链接标签的url

content = '''<img alt="Python" src="http://www.yangxiuzhang.com/eastmount.jpg" />'''
urls = re.findall('src="(.*?)"', content, re.I|re.S|re.M)
print urls

（5）获取url中最后一个参数
在使用Python爬取图片过程中，通常会遇到图片对应的url最后一个字段用来命名图片的情况，如“photo1.jpg”，需要通过解析url“/”后面的参数来获取图片。

urls = 'http://www..csdn.net/photo1.jpg'
name = urls.split('/')[-1]  
print name

补充：如果取得的text有其他字符，可以进行数据的预处理

使用.replace()方法，将需要替换的特殊字符统统替换成空字符，可以看数据分析这一讲，详细学习该方法的用法。

03 还在学习（ing）

想要学好爬虫，还需要学习以下基础知识：

Beautiful Soup 4
XPATH技术：分析网页的DOM树结构，通过XPATH技术定位网页所爬取内容的节点，再抓取数据
Scrapy框架
Selenium库

爬虫（二）--正则表达式

01 前言

02 正则表达式

2.1 `re`库

2.2 正则表达式的参数

2.2.1 常用的元字符

2.2.2 反义字符

2.2.3 限定字符

2.2.4 转义字符

2.2.5 字符分组

2.2.6 懒惰匹配和贪婪匹配

2.2.7 后向引用

2.2.8 零宽断言

2.3 常用的正则表达式

2.4 正则表达式的实例

补充：如果取得的text有其他字符，可以进行数据的预处理

03 还在学习（ing）

猜你喜欢

爬虫（二）--正则表达式

01 前言

02 正则表达式

2.1 re库

2.2 正则表达式的参数

2.2.1 常用的元字符

2.2.2 反义字符

2.2.3 限定字符

2.2.4 转义字符

2.2.5 字符分组

2.2.6 懒惰匹配和贪婪匹配

2.2.7 后向引用

2.2.8 零宽断言

2.3 常用的正则表达式

2.4 正则表达式的实例

补充：如果取得的text有其他字符，可以进行数据的预处理

03 还在学习（ing）

猜你喜欢

2.1 `re`库