scrapyd 部署爬虫项目

1.cmd进入虚拟环境下载scrapyd,即pip install scrapyd,安装完成后输入scrapyd，启动scrapyd服务

在浏览器输入127.0.0.1：6800 即可查看

2. 如果连接成功先关闭服务，自己在非C盘下新建一个文件夹，名称自定义如:scrapydTest然后进入该文件夹， cmd打开命令行工具，输入scrapyd执行，执行完成后会新建一个dbs空文件夹，用来存放爬虫项目的数据文件

3.安装scrapyd-client模块。scrapyd-client模块是专门打包scrapy爬虫项目到scrapyd服务中的，进入虚拟环境，执行命令pip install scrapyd-client==1.1.0，安装完成后，在虚拟环境的scripts中会出现scrapyd-deploy无后缀文件，这个scrapyd-deploy无后缀文件是启动文件，在Linux系统下可以远行，在windows下是不能运行的，所以我们需要编辑一下使其在windows可以运行,复制让后右键编辑后缀加上.bat，完成后右键选择编辑，输入以下配置，注意：两个路径之间是空格，一定要使用双引号。单引号的话会错误。

4.cmd进入虚拟环境，进入到你的爬虫项目中，进入带有scrapy.cfg文件的目录，执行scrapyd-deploy，测试scrapyd-deploy是否可以运行

5.打开爬虫项目中的scrapy.cfg文件，这个文件就是给scrapyd-deploy使用的将url这行代码解掉注释，并且给设置你的部署名称

5.再次执行scrapyd-deploy -l 启动服务，可以看到设置的名称

6.开始打包前，执行一个命令：scrapy list ，这个命令执行成功说明可以打包了，如果没执行成功说明还有工作没完成

注意执行 scrapy list 命令的时候很有可能出现错误，如果是python无法找到scrapy项目，需要在scrapy项目里的settings.py配置文件里设置成python可识别路径，如果错误提示，什么远程计算机拒绝，说明你的scrapy项目有链接远程计算机，如链接数据库或者elasticsearch(搜索引擎)之类的，需要先将链接服务器启动执行 scrapy list 命令返回了爬虫名称说明一切ok了

7.到此我们就可以开始打包scrapy项目到scrapyd了，用命令结合scrapy项目中的scrapy.cfg文件设置来打包

执行打包命令： scrapyd-deploy 部署名称 -p 项目名称

curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名称

可以去网页中127.0.0.1:6800查看爬虫运行状态

停止爬虫

curl http://localhost:6800/cancel.json -d project=scrapy项目名称 -d job=运行ID

删除scrapy项目

注意：一般删除scrapy项目，需要先执行命令停止项目下在远行的爬虫

curl http://localhost:6800/delproject.json -d project=scrapy项目名称

查看有多少个scrapy项目在api中

curl http://localhost:6800/listprojects.json

查看指定的scrapy项目中有多少个爬虫

curl http://localhost:6800/listspiders.json?project=scrapy项目名称

scrapyd 部署爬虫项目

猜你喜欢