python爬虫(二)简单的架构

要实现一个爬虫我们需要考虑那几个方面呢?
首先我们需要一个爬虫的调度端,来启动爬虫,运行爬虫,监视爬虫的运行情况.
在爬虫程序有三个模块.
1 URL管理器 : 将我们的将要爬取得URL和已经爬取过的URL
2 网页下载器: 将我们URL管理器中待爬取的URL将其传送给网页下载器,下载器将指定的URL下载下来组成一个字符串.
3 网页解析器: 将我们的网页下载器下载下来的字符串传送给网页解析器,然后我们的解析器进行解析,一方面会解析出有价值的信息,,另一个方面每一个网页都会指向其他URL,其他URL被补充进URL管理器这时就形成一个循环.

这里写图片描述

简单爬虫架构–运行流程
这里写图片描述

学习:慕课网.

猜你喜欢

转载自blog.csdn.net/qq_32230309/article/details/81112038