1 1. scrapy crawl chouti --nolog
2
3 2. 找到 SCHEDULER = "scrapy_redis.scheduler.Scheduler" 配置并实例化调度器对象
4 - 执行Scheduler.from_crawler
5 - 执行Scheduler.from_settings
6 - 读取配置文件:
7 SCHEDULER_PERSIST # 是否在关闭时候保留原来的调度器和去重记录,True=保留,False=清空
8 SCHEDULER_FLUSH_ON_START # 是否在开始之前清空 调度器和去重记录,True=清空,False=不清空
9 SCHEDULER_IDLE_BEFORE_CLOSE # 去调度器中获取数据时,如果为空,最多等待时间(最后没数据,未获取到)。
10 - 读取配置文件:
11 SCHEDULER_QUEUE_KEY # %(spider)s:requests
12 SCHEDULER_QUEUE_CLASS # scrapy_redis.queue.FifoQueue
13 SCHEDULER_DUPEFILTER_KEY # '%(spider)s:dupefilter'
14 DUPEFILTER_CLASS # 'scrapy_redis.dupefilter.RFPDupeFilter'
15 SCHEDULER_SERIALIZER # "scrapy_redis.picklecompat"
16
17 - 读取配置文件:
18 REDIS_HOST = '140.143.227.206' # 主机名
19 REDIS_PORT = 8888 # 端口
20 REDIS_PARAMS = {'password':'beta'} # Redis连接参数 默认:REDIS_PARAMS = {'socket_timeout': 30,'socket_connect_timeout': 30,'retry_on_timeout': True,'encoding': REDIS_ENCODING,})
21 REDIS_ENCODING = "utf-8"
22 - 示例Scheduler对象
23
24 3. 爬虫开始执行起始URL
25 - 调用 scheduler.enqueue_requests()
26 def enqueue_request(self, request):
27 # 请求是否需要过滤?
28 # 去重规则中是否已经有?(是否已经访问过,如果未访问添加到去重记录中。)
29 if not request.dont_filter and self.df.request_seen(request):
30 self.df.log(request, self.spider)
31 # 已经访问过就不要再访问了
32 return False
33
34 if self.stats:
35 self.stats.inc_value('scheduler/enqueued/redis', spider=self.spider)
36 # print('未访问过,添加到调度器', request)
37 self.queue.push(request)
38 return True
39
40 4. 下载器去调度器中获取任务,去下载
41
42 - 调用 scheduler.next_requests()
43 def next_request(self):
44 block_pop_timeout = self.idle_before_close
45 request = self.queue.pop(block_pop_timeout)
46 if request and self.stats:
47 self.stats.inc_value('scheduler/dequeued/redis', spider=self.spider)
48 return request
49