1. 爬虫的流程
a. url
b. 发送请求获取响应
c. 提取的数据,就处理保存
d. 提取的是url,重复b步骤
2. http和https的概念
http 超文本 传输 协议 80
https http+ssl 443
3. 浏览器最终展示出来的结果,是多次请求对应的多次响应共同渲染的结果
4. 必须关注的请求头和响应头
User-Agent
Referer
Cookie
Set-cookie
5. requests模块发送简单的get请求
response = requests.get('http://host:port')
6. response常用属性
response.url
response.status_code
response.headers
response.request.headers
response.cookies
response.request._cookies
7. response响应的文本内容
response.text str
response.content bytes
# 解决中文显示乱码问题
response.content.decode('utf8')
# ascii gbk gb2312 iso-8859-1
8. 图片或音频视频保存本地要以bytes类型保存!