python爬虫笔记(二)爬虫基础

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_33532713/article/details/86511657
  1. URI和URL
    URI(Uniform Resource Identifier),即统一资源标志符
    URL(Universal Resource Locator),即统一资源定位符
    URN (Universal Resource Name ),即统一资源名称
    三者之间的关系如下:
    URL是URI的子集,也就是说每个URL都是URI,但不是都是每个URI都是URL。
    在这里插入图片描述
    “URI可以分为URL,URN或同时具备locators 和names特性的一个东西。URN作用就好像一个人的名字,URL就像一个人的地址。换句话说:URN确定了东西的身份,URL提供了找到它的方式。”

关于URL格式:
大多数URL协的语法都建立在下面9个部分构成的通用格式上:
<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>
其中最重要的3个部分是:协议(scheme)、主机(host)和路径(path)
http://localhost:8080/访问的是本地tomcat服务器的8080端口的根目录。

参考:
https://blog.csdn.net/koflance/article/details/79635240

  1. HTTP和HTTPS
    HTTP全称 Hyper Text Transfer Protocol
    HTTPS全称Hyper Text Transfer Protocal over Secure Socket Layer,是以安全为目标的HTTP通道,简单讲是HTTP的安全版,即HTTP下加入SSL层,简称为HTTPS。
    通过HTTPS传输的内容都是经过SSL加密的。

关于HTTP和HTTPS的区别,参考:
https://blog.csdn.net/xiaoming100001/article/details/81109617

3. HTTP请求

请求,可以分为4个部分:请求方法,请求的网址(URL),请求头,请求体。

HTTP请求的方法:
HTTP/1.1协议中共定义了八种方法(有时也叫“动作”),来表明Request-URL指定的资源不同的操作方式

1、OPTIONS
返回服务器针对特定资源所支持的HTTP请求方法,也可以利用向web服务器发送‘*’的请求来测试服务器的功能性
2、HEAD
向服务器索与GET请求相一致的响应,只不过响应体将不会被返回。这一方法可以再不必传输整个响应内容的情况下,就可以获取包含在响应小消息头中的元信息。
3、GET
向特定的资源发出请求。它本质就是发送一个请求来取得服务器上的某一资源。资源通过一组HTTP头和呈现数据(如HTML文本,或者图片或者视频等)返回给客户端。GET请求中,永远不会包含呈现数据。
4、POST
向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST请求可能会导致新的资源的建立和/或已有资源的修改。 Loadrunner中对应POST请求函数:web_submit_data,web_submit_form
5、PUT
向指定资源位置上传其最新内容
6、DELETE
请求服务器删除Request-URL所标识的资源
7、TRACE
回显服务器收到的请求,主要用于测试或诊断
8、CONNECT
HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。
注意:
1)方法名称是区分大小写的,当某个请求所针对的资源不支持对应的请求方法的时候,服务器应当返回状态码405(Mothod Not Allowed);当服务器不认识或者不支持对应的请求方法时,应返回状态码501(Not Implemented)。
2)HTTP服务器至少应该实现GET和HEAD/POST方法,其他方法都是可选的,此外除上述方法,特定的HTTP服务器支持扩展自定义的方法。
 
get 和 post区别
  区别:
    get请求无消息体,只能携带少量数据
    post请求有消息体,可以携带大量数据
  携带数据的方式:
    get请求将数据放在url地址中
     post请求将数据放在消息体中
GET请求请提交的数据放置在HTTP请求协议头中,而POST提交的数据则放在实体数据中;GET方式提交的数据最多只能有1024字节,而POST则没有此限制。

content-type和Post提交数据的关系
text/plain 空格转换为 “+” 加号,但不对特殊字符编码。

content-type 提交数据的方式
application/x-www-form-urlencoded 表单数据
multipart/form-data 表单文件上传
application/json 序列化json数据
text/xml XML数据

4. HTTP响应

响应有三部分组成:响应状态码,响应头,响应体
常见的响应状态码:
200 - 请求成功
301 - 资源(网页等)被永久转移到其它URL
404 - 请求的资源(网页等)不存在
500 - 内部服务器错误

参考:
https://blog.csdn.net/u010256388/article/details/68491509/

猜你喜欢

转载自blog.csdn.net/qq_33532713/article/details/86511657