爬虫请求基础

http请求过程

请求

  • 请求包含请求方法、请求的网址、请求头和请求体四部分
  • 请求方法 post get最常见
  • 请求网址 url
  • 请求头 常用头信息如下
    • accept:请求报头域,用于指定客户端可接受那些类型的信息
    • Accept-Language:指定客户端可接受的语言类型
    • Accept-encoding:指定客户端可接受的内容编码
    • Host:用于指定请求资源的主机IP和端口号
    • cookie
    • referer:用来标识这个请求是从那个页面发过来的
    • user-agent:简称UA,特殊服务串,可以使服务器识别客户使用的操作系统版本,浏览器等信息,在做爬虫时加上此信息可以伪装成浏览器,如果不加,很可能被识别出为爬虫
    • Content-type:互联网媒体类型   
  • 请求体 一般承载的时post请求中的表单数据,对于get请求,请求体为空

响应

  • 由服务器返回给客户端,分为三部分,响应状态码、响应头、响应体
  • 响应状态码 自己下去了解
  • 响应头
    • Data:标识响应产生的时间
    • last-modified:指定资源最后修改时间
    • Content-type:文档类型,指定返回的数据类型是什么
    • Set-cookie:设置cookies
    • expires:指定响应的过期时间
  • 响应体 数据都在响应体中

猜你喜欢

转载自blog.csdn.net/benben0729/article/details/80244287