版权声明:转载请声明原文链接地址,谢谢! https://blog.csdn.net/weixin_42859280/article/details/84451282
安装:
pip install scrapy
安装后:用scrapy -h来检测安装效果。
爬虫框架结构!
5+2结构:5个主要模块,两个中间键。
SPI到ENG,获取下一个要爬取的网络请求。
就是一个URL。真实的。
然后,ENG将此请求转发给SCHED模块。负责对爬取请求调度。
ENG到DOWN,真实连接到互联网,进行爬。
再反过来走一次!再发送给ENG。
最后,ENG又会转发给SPI模块!
- 入口:SPID
- 出口:ITEM
3个已经有的实现。2个需要编写的!
爬虫框架解析:
5+2:5个主要模块,两个中间键。
整个框架的核心:Engine 数据流都会通过它。
其他的:
downloader middleware用户可以编写代码。
提供最初的请求,也会对返回的东西进行分析。
spider Middleware