爬虫1

1.什么是爬虫?

定义:爬虫是请求网站并提取数据的自动化程序。

2,基本流程

发起请求---》获取响应内容--》解析内容--》保存数据

通过http库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。

如果服务器正常响应,会得到一个Response,Response中的内容就是所需要获取的页面内容,类型是H5,Json字符串,二进制数据等类型。

得到的内容是HTML,就用正则表达式,网页解析库进行。可能是json.可以直接转换为json对象解析,如果是二进制数据就可以保存进行下一步的处理。

保存形式多样,可以存为文本,也可以保存到数据库,或者保存至特殊的文本中。

3.1,Request:

我的浏览器---->访问一个网站(www.baidu.com)---->站点是运行在一个电脑/服务器上面的(Reauest)【就是浏览器发送消息给网址所在的服务器】

站点是运行在一个电脑/服务器上面的(Reauest)--->返回一个数据Response---->得到你想要获取的页面【服务器接受到浏览器发送的消息后,能够根据浏览器发送的消息做响应的处理,然后将消息回传给浏览器,叫做Response】

比如(F12下的Network中的每一条记录都是一个请求和响应)

3.2URL

定义:统一资源定位符,例如网站上的一张图片,一个视频都是可以用一个url链接做唯一标识的

3.3请求头

一般都会加上use-agent  cookie等进行

3.4请求体

请求时额外携带的数据,如表单提交时的表单数据等

4 Resonse中的内容

4.1状态码

200--success,,300-跳转,,404--找不到页面,,500以上--服务器处理错误

4.2响应头

如内容类型,内容长度,服务器信息,设置Cookie等

4.3响应体

最主要的部分,包含了请求资源的内容,如网页HTML,图片二进制数据等

综上所述,进行爬虫先发送请求,然后判断获得请求的的状态码,然后再获取body,最后分析body的内容。



猜你喜欢

转载自blog.csdn.net/a_lv_fei/article/details/80171586