爬虫基础-HTTP基本原理:
URI: 统一资源标志符
URL: 是URI的子集
一般的网页链接既可成为URL也可称为URI
超文本: HTML源代码
HTTP和HTTPS:
HTTP: 用于从网络传输超文本数据到本地浏览器的传输协议。
HTTPS: HTTP的安全版本,加入了SSL层
HTTP的请求过程:
在浏览器地址栏输入URL以后,浏览器向网站所在的服务器
发送一个请求,网站服务器接受到这个请求后进行处理和解析
然后返回对应的响应,接着传回给浏览器,浏览器再进行解析
请求:
客户端向服务端发出
请求方法:
GET POST: 在地址栏输入URL并回车,这便发起了一个GET请求
get参数包含在URL里面,post则不会
get方法提交数据最多只有1024个字节 post没有限制
一般登录时,需要写入用户名和密码的时候,使用post方式
请求网址:
即为URL
请求头:
说明服务器使用的附加信息 Cookie Referer User-Agent
请求体:
承载POST请求中的表单数据
响应:
响应状态码:
200正常
404页面未找到
500服务器内部错误
响应头:
Data: 标识响应时间
Last-Modified: 指定资源最后修改时间
Content-Encoding: 指定响应内容编码
Server: 包含服务器的信息
Content-Type: 文档类型
Set-Cookie: 设置Cookies
Expires: 指定响应过期时间
响应体:
响应的征文数据都在相应体中(network中Preview可看到网页源代码)
爬虫基础-HTTP基本原理
猜你喜欢
转载自blog.csdn.net/qq_40258748/article/details/89144307
今日推荐
周排行