scrapyd部署

1. pip install scrapyd

验证是否安装成功：

cmd： scrapyd

浏览器： 127.0.0.1:6800

部署爬虫时cmd要一直执行着scrapyd，否则会导致浏览器无法访问和部署时网络拒绝

2. pip install scrapyd-client

2.1. python\Scripts\ 目录下新建scrapyd-deploy.bat文件，内容如下：

@echo off
F:\python\python.exe F:\python\Scripts\scrapyd-deploy %*

验证是否安装成功：

进入爬虫项目带scrapy.cfg文件的目录，cmd执行scrapyd-deploy，出现：

Unknown target: default 即代表成功

3. 打开scrapy.cfg，url行解除注释，并设置部署名称：

[deploy:lagou]
url = http://localhost:6800/
project = lagou_spider

验证是否成功：

目录下执行：scrapyd-deploy -l ，可以看到设置的名称

4 .把scrapy项目打包上传部署到scrapyd服务端：

命令： scrapyd-deploy 部署名称 -p 项目名称

scrapyd-deploy lagou -p lagou_spider 提示如下代表成功，如网络拒绝访问，是没开scrapyd，cmd执行即可

Packing version 1538714880
Deploying to project "lagou_spider" in http://localhost:6800/addversion.json
Server response (200):
{"node_name": "DESKTOP-KT5UTV0", "status": "ok", "project": "lagou_spider", "version": "1538714880", "spiders": 1}

5 .安装curl，开始爬取：

5.1 https://curl.haxx.se/download.html 下载最新的即可

5.2 下载后解压到一个目录中

5.3 把该目录添加到环境变量path中

验证是否成功：

cmd中执行： curl --help

6. curl命令：

开始爬取：curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名称

curl http://localhost:6800/schedule.json -d project=lagou_spider -d spider=lagou 提示如下代表成功：

{"node_name": "DESKTOP-KT5UTV0", "status": "ok","jobid":"dcb0a8ccc85411e891fd201a06947bdb"}

停止爬取：

curl http://localhost:6800/cancel.json -d project=项目名称 -d job=jobid

删除爬虫：

curl http://localhost:6800/delproject.json-d project=项目名称

scrapyd中有多少项目：

curl http://localhost:6800/listprojects.json

显示指定scrapy项目中有多少爬虫：

curl http://localhost:6800/listspiders.json?project=项目名称

猜你喜欢