基本指令
- scrapy list (打开已有的爬虫列表)
- scrapy gensprider -l (爬虫模板)
- scarpy startproject (创建一个项目)
- scarpy genspider -t 模板 爬虫名 域名 (创建一个爬虫,注意要进入爬虫项目)
scrapy crawl 爬虫名 (运行该爬虫)
scrapy架构
items
确定需要爬取的数据
spider
网页解析,进行数据提取,返回数据给piplines,返回url给调度器
piplines
爬后处理,进行存储