爬虫过程

爬虫：获取网络数据（公开的网络）

网络数据来源：网站对应的网页、手机APP

一、获取网络数据（requests、selenium）

1.`requests`

定义

Python获取网络数据的第三方库（基于http或https协议的网络请求）

应用场景

1）直接请求网页地址
2）对提供网页数据的数据接口发送请求

基本用法

1)对目标网页直接发送请求: 
requests.get(网页地址)：获取指定页面的数据返回一个响应对象
2)获取响应的状态码：response.status_code
3)获取响应头：response.headers
4)请求内容（返回的有效数据）:
a.response.content: 二进制类型的数据（图片、视频、音频等，例如：图片下载）
b.response.text: 字符串类型的数据（网页）
c.response.json(): 对请求内容做完json解析后的数据（json数据接口）

response = requests.get('https://cd.zu.ke.com/zufang')
print(response)    # 200表示请求成功

2.`selenium`

3.常见反爬

浏览器伪装
登录反爬
代理IP

二、解析数据(从获取到的网络数据中提取有效数据）

1.正则表达式

2.基于`css`选择器的解析器（`bs4`）

3.基于`xpath`的解析器（`lxml`）

三、保存数据：`csv`、Excel

正则解析名字和价格

基础语言-第19天-爬虫过程

爬虫过程

一、获取网络数据（requests、selenium）

1.`requests`

2.`selenium`

3.常见反爬

二、解析数据(从获取到的网络数据中提取有效数据）

1.正则表达式

2.基于`css`选择器的解析器（`bs4`）

3.基于`xpath`的解析器（`lxml`）

三、保存数据：`csv`、Excel

猜你喜欢

基础语言-第19天-爬虫过程

爬虫过程

一、获取网络数据（requests、selenium）

1.requests

2.selenium

3.常见反爬

二、解析数据(从获取到的网络数据中提取有效数据）

1.正则表达式

2.基于css选择器的解析器（bs4）

3.基于xpath的解析器（lxml）

三、保存数据：csv、Excel

猜你喜欢

1.`requests`

2.`selenium`

2.基于`css`选择器的解析器（`bs4`）

3.基于`xpath`的解析器（`lxml`）

三、保存数据：`csv`、Excel