对网页发送的请求可以分为以下几个部分
- Request URL:请求的网址
- Request headers:请求头
- Request body:请求体
- Request method:请求方法
细说请求的组成部分
- Request URL:其中URL ,也叫统一资源定位符,通过它可以访问到服务器中的具体资源,也就是告诉浏览器你想要它存储的哪些信息
- Request headers:请求头,用来指定服务器要使用的附加信息,下面列举一些比较重要的请求头信息
cookie:用来维持登录状态,每次你打开网址时,例如优酷视频时发现不用自己输入账号密码就可以登录这都是cookie的功劳
User-agent:用户代理,给自己的爬虫附加上这个信息,可以把爬虫伪装成浏览器
content-type:表示具体请求中媒体类型信息,常见的时text,json
``请求头时请求的重要组成部分,大部分爬虫都要附加上这个信息,也就是说有的爬虫可以不包含报请求头信息
- Request method :请求方法,这里只介绍两个最实用的
post:POST请求大多用于提交表单,这些表单通常包含一些加密信息,同时也可以处理上传文件的功能,可以说这是一个比较低调的大佬
GET:相比POST,GET的所有行为都会在URL中体现
- Request body :一般而言,这是个相对于POST请求而存在的东西,这里面包含了发送的请求中包含的表单数据,只有这种比较低调的大佬才配有这种待遇吧,哈哈
服务器的响应
服务器的响应可以分为三部分:
-
Response status code:状态码,这里列出常用的状态码:
100:继续,服务器已收到请求等待下一波攻击;200:服务器已经成功处理的请求;202:服务器已经接受请求但是尚未处理;204:服务器已经成功处理了请求但是没有返回任何内容;301:网页永久搬家;400:错误请求,服务器无法解析该请求;;401:未授权;403:拒绝访问;404:找不到网页;
-
响应头: 这里列举几个常见的值
content-type:说明返回内容的格式,applicatio/json,返回的内容就是json格式的内容,text/html:html文件;content-enconding:指定响应内容的编码方式
-
响应体:这才是大哥,我们爬虫就是对响应体的解析,是我们对URL发起请求之后获得的响应的正文数据。