第四章 URL管理器和实现方法

版权声明:欢迎转载,转载请注明出处 https://blog.csdn.net/Tifficial/article/details/54810100

4.1 URL管理器

  • URL管理器管理待抓取的URL集合和已抓取的URL集合,防止重复抓取和循环抓取,如果两个URL相互指向,爬虫就会陷入死循化。
  • URL管理器支持的功能如下:
    图片3

4.2 URL管理器的实现方法
图片5

  • 内存,缓存数据库:选取set,因为set可以去除重复元素。由于缓存数据库的高性能,大型互联网公司将URL存储在缓存数据库中。

猜你喜欢

转载自blog.csdn.net/Tifficial/article/details/54810100