一、递归爬取解析多页页面数据
1、多页爬取需求分析
需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储。
需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页码对应的url依次发起请求,然后通过对应的解析方法进行作者和段子内容的解析。
2、实现方案
- 将每一个页码对应的url存放到爬虫文件的起始url列表(start_urls)中。(不推荐)
- 使用Request方法手动发起请求。(推荐)
3、项目创建
$ pwd
/Users/hqs/ScrapyProjects
$ scrapy startproject qiubaiByPages
New Scrapy project 'qiubaiByPages', using template directory '/Users/hqs/anaconda3/lib/python3.7/site-packages/scrapy/templates/project', created in:
/Users/hqs/ScrapyProjects/qiubaiByPages
You can start your first spider with:
cd qiubaiByPages
scrapy genspider example example.com
$ cd qiubaiByPages/
$ scrapy genspider qiubai www.qiushibaike.com/text
Created spider 'qiubai' using template 'basic' in module:
qiubaiByPages.spiders.qiubai