1.创建CrawlSpider
打开terminal 输入 scrapy genspider -t crawl xxx xxx.com
2.与一般的spider多了两件东西:一般我们需要自己做url的请求链接,这里的LinkExtractor回去匹配所有符合的正则表达
3.原理
from scrapy.linkextractor import Linkextractor
link_list = LinkExtractor(allow=("start=\d+")) :"start=\d+"是指链接的正则匹配规则
会去匹配响应文件:link_list.extract_links(response)
4.使用
link_etractor = LinkExtractor(allow=("start=\d+"))
#获得列表中的链接,依次发送请求,并且继续跟进,调用指定的回调函数
Rules =[link_etractor, -----link操作对象,call_back = ------指定回调函数,follow= ------是否进行深入爬取 ]
(需要注意的是,这里的回调处理函数,需要自己专门写一个处理函数,不能采用原来的默认的处理函数)