scrapyd部署

1. pip install scrapyd

    验证是否安装成功:

    cmd: scrapyd

    浏览器: 127.0.0.1:6800

    部署爬虫时cmd要一直执行着scrapyd,否则会导致浏览器无法访问和部署时网络拒绝

2. pip install scrapyd-client

    2.1. python\Scripts\   目录下新建scrapyd-deploy.bat文件,内容如下:

    @echo off
    F:\python\python.exe F:\python\Scripts\scrapyd-deploy %*

    验证是否安装成功:

    进入爬虫项目带scrapy.cfg文件的目录,cmd执行scrapyd-deploy,出现:

    Unknown target: default   即代表成功

3. 打开scrapy.cfg,url行解除注释,并设置部署名称:

    [deploy:lagou]
    url = http://localhost:6800/
    project = lagou_spider

    验证是否成功:

    目录下执行:scrapyd-deploy -l ,可以看到设置的名称

4 .把scrapy项目打包上传部署到scrapyd服务端:

    命令: scrapyd-deploy 部署名称 -p 项目名称

    scrapyd-deploy lagou -p lagou_spider   提示如下代表成功,如网络拒绝访问,是没开scrapyd,cmd执行即可

Packing version 1538714880
Deploying to project "lagou_spider" in http://localhost:6800/addversion.json
Server response (200):
{"node_name": "DESKTOP-KT5UTV0", "status": "ok", "project": "lagou_spider", "version": "1538714880", "spiders": 1}

5 .安装curl,开始爬取:

    5.1 https://curl.haxx.se/download.html 下载最新的即可

    5.2 下载后解压到一个目录中

    5.3 把该目录添加到环境变量path中

    验证是否成功:

    cmd中执行: curl --help

6. curl命令:

    开始爬取:curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名称

    curl http://localhost:6800/schedule.json -d project=lagou_spider -d spider=lagou     提示如下代表成功:

{"node_name": "DESKTOP-KT5UTV0", "status": "ok","jobid":"dcb0a8ccc85411e891fd201a06947bdb"}

    停止爬取

    curl http://localhost:6800/cancel.json -d project=项目名称 -d job=jobid

    删除爬虫

    curl http://localhost:6800/delproject.json-d project=项目名称

    scrapyd中有多少项目:

    curl http://localhost:6800/listprojects.json

    显示指定scrapy项目中有多少爬虫:

    curl http://localhost:6800/listspiders.json?project=项目名称

猜你喜欢

转载自blog.csdn.net/qq_18525247/article/details/82943286