爬虫1

1.什么是爬虫？

定义：爬虫是请求网站并提取数据的自动化程序。

2，基本流程

发起请求---》获取响应内容--》解析内容--》保存数据

通过http库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。

如果服务器正常响应，会得到一个Response，Response中的内容就是所需要获取的页面内容，类型是H5，Json字符串，二进制数据等类型。

得到的内容是HTML，就用正则表达式，网页解析库进行。可能是json.可以直接转换为json对象解析，如果是二进制数据就可以保存进行下一步的处理。

保存形式多样，可以存为文本，也可以保存到数据库，或者保存至特殊的文本中。

3.1，Request:

我的浏览器---->访问一个网站(www.baidu.com)---->站点是运行在一个电脑/服务器上面的(Reauest)【就是浏览器发送消息给网址所在的服务器】

站点是运行在一个电脑/服务器上面的(Reauest)--->返回一个数据Response---->得到你想要获取的页面【服务器接受到浏览器发送的消息后，能够根据浏览器发送的消息做响应的处理，然后将消息回传给浏览器，叫做Response】

比如（F12下的Network中的每一条记录都是一个请求和响应）

3.2URL

定义：统一资源定位符，例如网站上的一张图片，一个视频都是可以用一个url链接做唯一标识的

3.3请求头

一般都会加上use-agent cookie等进行

3.4请求体

请求时额外携带的数据，如表单提交时的表单数据等

4 Resonse中的内容

4.1状态码

200--success,,300-跳转,,404--找不到页面，，500以上--服务器处理错误

4.2响应头

如内容类型，内容长度，服务器信息，设置Cookie等

4.3响应体

最主要的部分，包含了请求资源的内容，如网页HTML，图片二进制数据等

综上所述，进行爬虫先发送请求，然后判断获得请求的的状态码，然后再获取body,最后分析body的内容。