Gerapy分布式部署

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/gklcsdn/article/details/102770645

Gerapy分布式部署

1. 介绍

Gerapy 是一个基于scrapyd,scrapyd api,django,vue.js搭建的分布式爬虫管理框架
优点:
    (1) 更方便地控制爬虫运行
    (2) 更直观地查看爬虫状态
    (3) 更实时地查看爬取结果
    (4) 更简单地实现项目部署
    (5) 更统一地实现主机管理

2. 准备工作

(1)安装Gerapy(pip install gerapy)
(2)安装Scrapyd(pip install scrapyd)
(3)安装scrapyd-client(pip install scrapyd-client)

3. 部署

(1) 新建项目(gerapy init),会在当前目录下生成一个gerapy文件夹,gerapy文件夹里一个projects文件夹
(2) cd到gerapy文件夹下执行gerapy migrate, 对数据库进行初始化
(3) 将scrapy项目放到projects文件夹下
(4) 通过gerapy runserver 0.0.0.0:8080启动gerapy 服务
(5) 打开浏览器访问 127.0.0.1:8080 (ip port 可自己设置(Django))
(6) 新开一个终端开启scrapyd
(7) 在gerapy中加载scrapyd服务器
(8) 打包部署项目

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LyWdiuWw-1572177482046)(images/1567071659712.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q5ljdVHD-1572177482047)(images/1567071836487.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dC5CPtJR-1572177482048)(images/1567071894835.jpg)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vGjxJcaM-1572177482049)(images/1567071929800_爱奇艺.jpg)]
在这里插入图片描述

4. scrapy 项目创建及源码

CSDN地址

猜你喜欢

转载自blog.csdn.net/gklcsdn/article/details/102770645