爬虫总结1

1. 爬虫的流程

a. url
b. 发送请求获取响应
c. 提取的数据,就处理保存
d. 提取的是url,重复b步骤

2. http和https的概念

http 超文本 传输 协议 80
https http+ssl 443

3. 浏览器最终展示出来的结果,是多次请求对应的多次响应共同渲染的结果

4. 必须关注的请求头和响应头

User-Agent
Referer
Cookie
Set-cookie

5. requests模块发送简单的get请求

response = requests.get('http://host:port')

6. response常用属性

response.url
response.status_code 

response.headers
response.request.headers

response.cookies
response.request._cookies

7. response响应的文本内容

response.text str 
response.content bytes
# 解决中文显示乱码问题
response.content.decode('utf8')
# ascii gbk gb2312 iso-8859-1

8. 图片或音频视频保存本地要以bytes类型保存!

猜你喜欢

转载自blog.csdn.net/u012087012/article/details/84751124
今日推荐