1. 爬虫是什么?
爬虫就是写一段代码让计算机模仿人类自动访问网站。
2. 爬虫的作用
爬虫可以代替人们自动地在互联网中进行数据信息的采集与整理。
比如,可以爬取国庆节期间丽江客栈的价格。
比如,可以抢票,可以批量下载图片、文档、视频等等。
3. 爬虫步骤
【爬虫通常分为3步】
-
获取网页
-
解析网页
-
存储数据
1-1
【备注】
扫描二维码关注公众号,回复:
16889491 查看本文章
图片来源于《风变编程》。
3.1 获取网页
获取网页既获取网页信息。
在网络爬虫技术中这里获取的就是网页源代码。
3.2 解析网页
解析网页,指的是从网页源代码中提取想要的数据。
由于网页的结构有一定的规则,配合 Python 的一些第三方库我们可以高效地从中提取网页数据。
解析网页就是通过一定的方法从网页源代码中提取到我们要的数据。
这些数据可能是视频的链接、图片的下载地址、文件的标题等等。
3.3 存储数据
存储数据就是将获取的数据以某种形式(文字、图片、视频等)存储下来。
存储其实就是一个写并保存的过程。
将提取到的数据写入csv、Word、Excel或数据库中,或者是保存到文件夹等等。
4. 总结
最后:
【想要学习爬虫的朋友们 我这里整理了很多Python学习资料上传到CSDN官方了,有需要的朋友可以扫描下方二维码进行获取】
一、学习大纲
二、开发工具
三、Python基础材料
四、实战资料