【归纳】爬虫基础知识

URL：网址，用于唯一定位并访问网络资源
超文本：文本+标签，HTML就是典型的超文本
HTTP：超文本传输协议，HTTPS是HTTP的安全版
HTTP请求过程：
- 在开发者模式下访问任意网址（如www.baidu.com），即可看到HTTP交互过程
- 完整的客户端请求包含请求方法、请求头和请求体
- 常见的请求方法：GET, POST
请求头（Request Headers）中的重要信息（当然还有很多其他内容，具体百度）：
- Cookie：标识了用户的会话信息，服务器通过Cookie来识别用户及其状态信息
- Referer：标识这个请求是从哪个页面发来的，服务器可通过该信息进行来源统计及防盗链处理
- User-Agent：简称UA，包含客户端的操作系统、浏览器等信息，爬虫访问时如果不伪装好UA，将很容易被服务器识别出来
请求体：
- POST的请求体为表单信息，GET的请求体为空
- 爬虫如果要构造POST请求，需要在请求头中使用正确的Content-Type，具体见《实战》P84表2-2：Content-Type和POST提交数据方式的关系
服务器的响应包含三个部分：响应状态码，响应头，响应体
- 常见的响应状态码：200-正常响应，404-未找到页面，500-服务器内部错误，etc.
响应体：包含服务器响应的正文内容，如HTML代码，图片的二进制数据等