爬虫过程
爬虫:获取网络数据(公开的网络)
网络数据来源:网站对应的网页、手机APP
一、获取网络数据(requests、selenium)
1.requests
-
定义
Python获取网络数据的第三方库(基于http或https协议的网络请求)
-
应用场景
1)直接请求网页地址 2)对提供网页数据的数据接口发送请求
-
基本用法
1)对目标网页直接发送请求: requests.get(网页地址):获取指定页面的数据返回一个响应对象 2)获取响应的状态码:response.status_code 3)获取响应头:response.headers 4)请求内容(返回的有效数据): a.response.content: 二进制类型的数据(图片、视频、音频等,例如:图片下载) b.response.text: 字符串类型的数据(网页) c.response.json(): 对请求内容做完json解析后的数据(json数据接口)
response = requests.get('https://cd.zu.ke.com/zufang') print(response) # 200表示请求成功
2.selenium
3.常见反爬
- 浏览器伪装
- 登录反爬
- 代理
IP
二、解析数据(从获取到的网络数据中提取有效数据)
1.正则表达式
2.基于css
选择器的解析器(bs4
)
3.基于xpath
的解析器(lxml
)
三、保存数据:csv
、Excel
正则解析名字和价格