爬虫细节总结

request:

request对象是从客户端向服务器发出请求,包括用户提交的信息以及客户端的一些信息。客户端可通过HTML表单或在网页地址后面提供参数的方法提交数据,然后通过request对象的相关方法来获取这些数据。

在爬虫中的request其实就是通过python向服务器发出request请求(客户端向服务器端发起请求),得到其返回的信息。

Request中包含什么?

基本GET请求(URL  headers参数 和 parmas参数)

1. 最基本的GET请求可以直接用get方法

response = requests.get("http://www.baidu.com/")

- response的常用方法:

    - response.text 返回解码后的字符串

    - respones.content 以字节形式(二进制)返回。

    - response.status_code  响应状态码

    - response.request.headers  请求的请求头

    - response.headers  响应头

    - response.encoding = 'utf-8' 可以设置编码类型

    - response.encoding 获取当前的编码

    - response.json() 内置的JSON解码器,以json形式返回,前提返回的内容确保是json格式的,不然解析出错会抛异常

基本POST请求(data参数)

最基本的GET请求可以直接用post方法


9128313-79bc27e1b70fd31d.png

2. 传入data数据

对于 POST 请求来说,我们一般需要为它增加一些参数。那么最基本的传参方法可以利用 data 这个参数

正则表达式(re)

为什么要学正则表达式?

因为我们下载下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。

那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵利器。

正则表达式:又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。

使用正则表达式要达到的目的是什么呢?

- 给定的字符串是否符合正则表达式的过滤逻辑(“匹配”);

- 通过正则表达式,从文本字符串中获取我们想要的特定部分(“过滤”)


9128313-daf16e6b9eb9bfd2.png

正则表达式的匹配规则如下:


9128313-d835f8c35ab39042.png

Python 的 re 模块

在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。

re 模块的一般使用步骤如下:

- 使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象

- 通过 Pattern 对象提供的一系列方法对文本进行匹配查找,获得匹配结果,一个 Match 对象。

- 最后使用 Match 对象提供的属性和方法获得信息,根据需要进行其他的操作

compile 函数

compile 函数用于编译正则表达式,生成一个 Pattern 对象

findall

findall 以列表形式返回全部能匹配的子串,如果没有匹配,则返回一个空列表。


9128313-a4b0fa0994138705.png

正则规则学习参考网站:正则学习网站

xpath选择器

我正则用的不好,处理HTML文档很累,有没有其他的方法?

有!那就是XPath,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。

什么是XPath?

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。


9128313-30b026b02339998e.png

文档:w3c官方文档xpath

注意:在使用XPath的语法运用到Python抓取时要先转换为xml。

lxml库

lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。

lxml  Python官方文档

初步使用

我们利用它来解析 HTML 代码,简单示例:


9128313-9e2d889307a1e07f.png

xpath  参考资料


BeautifulSoup4选择器

和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。

lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。

BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。

官方文档

例子:

9128313-a9aae36173f0c33d.png
9128313-f4da0764d8f651e3.png


9128313-d7ffb19c5bc7fdc2.png

PyQuery简介

pyquery相当于jQuery的python实现,可以用于解析HTML网页等。它的语法与jQuery几乎完全相同,对于使用过jQuery的人来说很熟悉,也很好上手

中文教程

官方文档

#pyquery语法规则类似于Jquery,可以对html文本进行解析

pq('css选择器')

items():获取到多个标签时,使用items()将PyQuery转换为一个生成器

然后在使用for in 循环filter('css选择器'):过滤text():获取标签的文本attr('属性名')获取属性值

9128313-8d9332e6ae441fa5.png

什么是多线程?

CPU是计算机计算的基本单位,用来计算和处理任务  可以包含多个进程,进程中可以包含多个线程,进程、线程、锁lock(阻塞)。

多线程,密集的I/O操作、读写

多进程:用于密集的计算,一个cpu只能运行一个进程

使用多线程会让爬虫进行多任务的爬取。快捷,高效。


9128313-80788d6796b44ff6.png
原理图


9128313-099751712b703187.png

什么是selenium?

Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。

它用于爬虫中的作用?

Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE、Mozilla Firefox、Mozilla Suite等。使用它爬取页面也十分方便,只需要按照访问步骤模拟人在操作就可以了,完全不用操心Cookie,Session的处理,它甚至可以帮助你输入账户,密码,然后点击登陆按钮。


9128313-bb987cf79c36f4d5.png
9128313-cfc431402f93833d.png
9128313-d7fdbcb3f5e311e6.png

猜你喜欢

转载自blog.csdn.net/weixin_33816821/article/details/87047449