【每天坚持学一点之python爬虫】1、http基本原理

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u013375249/article/details/85158086

【本文是《python3网络爬虫开发实战》一书的学习笔记,原书作者崔庆才】

1、URL和URI

    URL,全称Universal Resource Locator,即统一资源定位符。

    URI,全称Uniform Resource Identifier,即统一资源标志符。

    URL是URI的子集,举例:https://mat1.gtimg.com/pingjs/ext2020/qqindex2018/dist/img/qq_logo_2x.png,这个链接指向了腾讯网的logo图片,这既是一个URL也是一个URI,它指定了该资源的访问协议https,访问路径,和资源名称。当然并不是每个URI都是URL,还有一类叫URN,这里不做记录。

2、超文本

    超文本,hypertext,浏览器中看到的网页就是超文本解析而成,网页源代码中的html代码就可以称为超文本。

3、http和https

    http和https都是网络协议类型,当然网络协议类型也包括其他的,像ftp,sftp等等。

    http协议,全称Hyper Text Transfer Protocol,超文本传输协议,用于从网络传输超文本数据到本地浏览器。

    https协议,http协议的安全版,加了ssl的http协议,大势所趋,在爬取时要专门处理。

4、http请求过程

5、请求

    请求,由客户端向服务器端发出,由四部分构成,请求方法(GET/POST),请求地址(URL),请求头(Headers),请求体(Body)。

    请求方法,常用为GET和POST,GET的请求参数一般带在URL中,而POST一般以表单形式传参,除了这两种还有其他方法

    请求头,用来说明服务器要使用的附加信息,包括像cookie,user-agent,host等。在编写爬虫时,基本上都要对请求头进行设定,否则会被识别为爬虫。

   请求体,当请求为POST请求时请求体当中则是表单数据,若为GET请求则请求体为空。同时请求体中的数据类型也与请求头中的Content-Type有关

6、响应

    响应,由服务端返回给客户端,由三部分构成,响应状态码,响应头,响应体。

    响应状态码,表示服务器对于客户端请求的响应状态,例如出名的200,403,404,500等等。

    响应头,包含了服务器对请求的应答信息,例如Server,Set-Cookie,Content-Type等等。

    响应体,响应的正文数据都包含在响应体中,例如请求网页时,网页的html源代码都在响应体中,以及我们请求的诸如json数据等等,都在响应体中,爬虫解析的也是这块儿的内容。

猜你喜欢

转载自blog.csdn.net/u013375249/article/details/85158086