scrapy 多爬虫顺序执行 - 代码天地

scrapy 多爬虫顺序执行

其他 2018-12-15 17:11:23 阅读次数: 0

scrapy可以在spiders目录下建立多个爬虫文件，常用的启动方式：

方法一

在包含 scrapy.cfg 的目录下，启动命令为：

scrapy  crawl yourspidername

　　

方法二

调用cmdline模块来启动scrapy

在与settings.py文件同级的目录下新建执行文件，如 run.py 。以下有两种写法：

from  scrapy  import cmdline

cmdline.execute('scrapy crawl yourspidername'.split())

from scrapy.cmdline import execute
 
execute(['scrapy','crawl','yourspidername'])

以上只能同时执行一个爬虫，

下面是可以顺序执行多个scrapy爬虫的方法。

方法三

引入系统os模块，该方法爬虫会顺序执行一遍后结束退出。

import os
os.system("scrapy crawl yourspidername_1")

os.system("scrapy crawl yourspidername_2")

os.system("scrapy crawl yourspidername_3")

启动方式：

python run.py 直接执行该python文件，下同

也可以让爬虫不间断的顺序循环执行，设置每个爬虫的执行时间，CLOSESPIDER_TIME=3600 表示3600秒之后强制停止该爬虫。时间随需要自己定义。

import os

while True:
    os.system("scrapy crawl yourspidername_1 -s CLOSESPIDER_TIMEOUT=3600") 
    os.system("scrapy crawl yourspidername_2 -s CLOSESPIDER_TIMEOUT=7200")  
    os.system("scrapy crawl yourspidername_3 -s CLOSESPIDER_TIMEOUT=3600")

　

猜你喜欢

转载自www.cnblogs.com/haitianzhimen/p/10123821.html

scrapy 多爬虫顺序执行

scrapy顺序执行多个爬虫

爬虫 - scrapy执行流程

scrapy 各组件执行顺序

爬虫scrapy

scrapy爬虫

爬虫---scrapy

scrapy 爬虫

爬虫_scrapy

[爬虫框架scrapy]scrapy的安装

Scrapy爬虫笔记(scrapy、scrapy-redis、scrapyd部署scrapy)

Scrapy爬虫框架下执行爬虫的方法

scrapy基本爬虫，采集多页

scrapy 执行同个项目多个爬虫

python实现scrapy定时执行爬虫

scrapy爬虫与反爬虫

web爬虫讲解—Scrapy框架爬虫—Scrapy安装—Scrapy指令

Python3 Scrapy爬虫框架(Scrapy/scrapy-redis)

Scrapy框架的使用之Scrapy通用爬虫

Python Scrapy 爬虫（二）：scrapy 初试

scrapy爬虫框架（一）：scrapy框架简介

scrapy专利爬虫（一）——scrapy简单介绍

爬虫框架Scrapy 之(一) --- scrapy初识

爬虫框架Scrapy 之(二) --- scrapy文件

【爬虫框架-scrapy】scrapy工具的使用

python 爬虫 6 （scrapy item、scrapy pipelines）

Scrapy框架爬虫案例

scrapy 简单爬虫实验

爬虫框架之Scrapy

scrapy爬虫编写流程

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)