【每天坚持学一点之python爬虫】1、http基本原理

【本文是《python3网络爬虫开发实战》一书的学习笔记，原书作者崔庆才】

1、URL和URI

URL，全称Universal Resource Locator，即统一资源定位符。

URI，全称Uniform Resource Identifier，即统一资源标志符。

URL是URI的子集，举例：https://mat1.gtimg.com/pingjs/ext2020/qqindex2018/dist/img/qq_logo_2x.png，这个链接指向了腾讯网的logo图片，这既是一个URL也是一个URI，它指定了该资源的访问协议https，访问路径，和资源名称。当然并不是每个URI都是URL，还有一类叫URN，这里不做记录。

2、超文本

超文本，hypertext，浏览器中看到的网页就是超文本解析而成，网页源代码中的html代码就可以称为超文本。

3、http和https

http和https都是网络协议类型，当然网络协议类型也包括其他的，像ftp，sftp等等。

http协议，全称Hyper Text Transfer Protocol，超文本传输协议，用于从网络传输超文本数据到本地浏览器。

https协议，http协议的安全版，加了ssl的http协议，大势所趋，在爬取时要专门处理。

4、http请求过程

5、请求

请求，由客户端向服务器端发出，由四部分构成，请求方法（GET/POST），请求地址（URL），请求头（Headers），请求体（Body）。

请求方法，常用为GET和POST，GET的请求参数一般带在URL中，而POST一般以表单形式传参，除了这两种还有其他方法

请求头，用来说明服务器要使用的附加信息，包括像cookie，user-agent，host等。在编写爬虫时，基本上都要对请求头进行设定，否则会被识别为爬虫。

请求体，当请求为POST请求时请求体当中则是表单数据，若为GET请求则请求体为空。同时请求体中的数据类型也与请求头中的Content-Type有关

6、响应

响应，由服务端返回给客户端，由三部分构成，响应状态码，响应头，响应体。

响应状态码，表示服务器对于客户端请求的响应状态，例如出名的200,403,404,500等等。

响应头，包含了服务器对请求的应答信息，例如Server，Set-Cookie，Content-Type等等。

响应体，响应的正文数据都包含在响应体中，例如请求网页时，网页的html源代码都在响应体中，以及我们请求的诸如json数据等等，都在响应体中，爬虫解析的也是这块儿的内容。

【每天坚持学一点之python爬虫】1、http基本原理

猜你喜欢