前言:scarpy是一个爬虫框架, 而scrapyd是一个网页版管理scrapy的工具, scrapy爬虫写好后,可以用命令行运行,但是如果能在网页上操作就比较方便. scrapyd就是为了解决这个问题,能够在网页端查看正在执行的任务,也能新建爬虫任务,和终止爬虫任务,功能比较强大. 还有一个更加强大的国产工具 gerapy!
1.需要进入到你的虚拟环境中安装
scrapyd=1.2.0 scrapyd-client==1.2.0a1 mmh3=2.5.1
pip install scrapyd
pip install scrapyd-client==1.2.0a1
下载后会多个这
下载mmh3可能会遇到的问题
解决方案参考文档http://www.mamicode.com/info-detail-2351094.html
解决方法
将上面这两个放到
下面后
同理将上面2个文件放到你的虚拟环境中的site-packages里
出现下图所示即为成功
2.去该地址https://github.com/liyaopinner/BloomFilter_imooc下载py_bloomfilter.py
3.启动scrapyd服务
4.配置爬虫项目
5.开始向scrapyd中部署项目
(1)通过scrapyd-deploy命令测试scrapyd-deploy是否可用。
如果出现下图所示的错误,你需要根据提示的路径找到对应的文件,并修改即可.
如果是下图,则为成功
(2)scrapyd-deploy -l查看当前可用于部署到scrapyd服务中的爬虫有哪些。
参数1: [deploy: jobbole]
参数2: scrapy.cfg文中中的url
(3)命令scrapy list用来查看当前项目中,可用的爬虫。
如果出现下图所示的错误,只需根据提示更改即可
如果是下图,则为成功
(4)列举scrapyd服务中已经部署的爬虫项目:
ScrapydAPI: https://scrapyd.readthedocs.io/en/latest/api.html
如果是下图所示,则为成功
如果出现下图的错误
你需要到Curl下载官网: https://curl.haxx.se/download.html
curl配置说明参考文档:https://www.cnblogs.com/zhuzhenwei918/p/6781314.html
(5)添加版本:
(6)启动一个爬虫(调度爬虫项目)
可以点击Log查看运行情况
(7)取消爬虫运行