版权声明:原创文章转载请声明出处https://blog.csdn.net/qq_40374604 https://blog.csdn.net/qq_40374604/article/details/86629516
总结网络爬虫遇到的问题和需要涉及到的重点
引用知乎一篇文章:https://zhuanlan.zhihu.com/p/22556271
这篇文章中涉及的内容,在很多开源的爬虫框架中都有使用,我的个人分类中有很多相关demo和不错的文章
除此之外:
1,分布式爬虫
2,整站爬取(爬取深度)
3,redis作为url队列
4,zookeeper监控爬虫运行状况