爬虫及爬虫的步骤

1. 爬虫是什么？

爬虫就是写一段代码让计算机模仿人类自动访问网站。

2. 爬虫的作用

爬虫可以代替人们自动地在互联网中进行数据信息的采集与整理。

比如，可以爬取国庆节期间丽江客栈的价格。

比如，可以抢票，可以批量下载图片、文档、视频等等。

3. 爬虫步骤

【爬虫通常分为3步】

获取网页
解析网页
存储数据

1-1

【备注】

扫描二维码关注公众号，回复： 16889491 查看本文章

图片来源于《风变编程》。

3.1 获取网页

获取网页既获取网页信息。

在网络爬虫技术中这里获取的就是网页源代码。

3.2 解析网页

解析网页，指的是从网页源代码中提取想要的数据。

由于网页的结构有一定的规则，配合 Python 的一些第三方库我们可以高效地从中提取网页数据。

解析网页就是通过一定的方法从网页源代码中提取到我们要的数据。

这些数据可能是视频的链接、图片的下载地址、文件的标题等等。

3.3 存储数据

存储数据就是将获取的数据以某种形式（文字、图片、视频等）存储下来。

存储其实就是一个写并保存的过程。

将提取到的数据写入csv、Word、Excel或数据库中，或者是保存到文件夹等等。

4. 总结

最后：

【想要学习爬虫的朋友们我这里整理了很多Python学习资料上传到CSDN官方了，有需要的朋友可以扫描下方二维码进行获取】

一、学习大纲

在这里插入图片描述

二、开发工具

在这里插入图片描述

三、Python基础材料

在这里插入图片描述

四、实战资料

在这里插入图片描述