scrapy 爬虫本地部署

scrapyd

  • 是运行scrapy爬虫的服务程序,它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫,每个爬虫还可以有多个版本

pip3 install scrapyd

scrapyd-client

  • 发布爬虫需要使用另一个专用工具,就是将代码打包为EGG文件,其次需要将EGG文件上传到远程主机上这些操作需要scrapyd-client来帮助我们完成

pip3 install scrapyd-client

  • 安装完成后可以使用如下命令来检查是否安装成功

scrapyd-deploy -h

  • 修改scrapy项目目录下的scrapy.cfg配置文件

首先需要修改scrapyd.egg (项目的配置文件)
[deploy]
url=http://localhost:6800
project=项目名称

  • 修改完成后即可开始部署共作
    本地部署 项目部署相关命令: 注意这里是项目的名称而不是工程的名称

scrapyd-deploy -p <项目名称>
也可以指定版本号
scrapyd-deploy -p <项目名称> --version <版本号>

以下命令需要安装 curl

调度爬虫开始运行

curl http://localhost:6800/schedule.json -d project=xiachufang -d spider=爬虫文件

关闭爬虫

curl http://localhost:6800/cancel.json -d project=项目名 -d job= (jobid)

获取部署的项目列表

curl http://localhost:6800/listprojects.jsoncurl http://localhost:6800/listversions.json? project=项目名

获取项目的版本号

curl http://localhost:6800/listversions.json? project=项目名

获取项目下的爬虫文件

curl http://localhost:6800/listspiders.json?project=myproject

获取爬虫的运行状态

curl http://localhost:6800/listjobs.json?project=myproject

删除对应版本的项目

curl http://localhost:6800/delversion.json -d project=myproject -d version=版本号

直接删除项目

curl http://localhost:6800/delproject.json -d project=myproject

猜你喜欢

转载自blog.csdn.net/weixin_34054866/article/details/87102723