⽹络架构

HTTP协议

HTTPS协议

https（Hyper Text Transfer Protocol over SecureSocketLayer）超文本传输安全协议，是HTTP+SSL，是以安全为⽬标的 HTTP 通道，在HTTP的基础上通过传输加密和身份认证保证了传输过程的安全性。

通过URL对网络资源进行定位

URL（Uniform Resource Locator），中文叫统一资源定位符。是用来标识某一处资源的地址。也就是我们常说的网址。

协议 + 域名（端口默认80）+ 路径 + 参数

域名（Domain Name），⼜称⽹域，是由⼀串⽤点分隔的名字组成的Internet上某⼀台计算机或计算机组的名称，⽤于在数据传输时对计算机的定位标识。由于IP地址具有不⽅便记忆并且不能显示地址组织的名称和性质等缺点，⼈们设计出了域名。

端⼝（Port），可以认为是设备与外界通讯交流的出⼝。端⼝可分为虚拟端⼝和物理端⼝，其中虚拟端⼝指计算机内部或交换机路由器内的端⼝，不可⻅；物理端⼝⼜称为接⼝，是可⻅端⼝。

路径（path），表示主机上的⼀个⽬录或者⽂件地址。

通过快捷键fn+f12 / f12启动 / 右击 ——检查启动

Network：⽹络⼯作（数据抓包），客户端与服务器之间交互的数据

我们需要有一个第三方库来帮我们实现发送请求获取响应：

导⼊模块requests

pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

1.目标url

2.模拟浏览器发送请求，接受响应

请求方式：

get： get⼀般⽤来获取服务器的信息，查询参数⼀般会在URL上显示出来

post：post⼀般是⽤来更新信息。参数不会在URL显示出来

import requests
url = 'https://www.baidu.com/'
response = requests.get(url)
print(response)

输出：

状态码

内容获取

User-Agent：简称ua，是⼀种向访问⽹站提供你所使⽤的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识

Cookie：是某些⽹站为了辨别⽤户身份

Referer：防盗链，显示从那个url跳转过来的，确定请求来路。

3.解析网页

4.保存数据

《爬虫前导》

目录