Scrapy命令详解

Scrapy的全局命令：

1.fetch 用来显示爬虫爬取的过程

通过 scrapy fetch 网址的形式显示出爬取对应网址的过程

--spider=SPIDER use this spider ----------控制使用哪个爬虫
--headers print response HTTP headers instead of body -------控制显示爬取网页的头信息
--no-redirect do not handle HTTP 3xx status codes and print response
as-is

Global Options
--------------
--logfile=FILE log file. if omitted stderr will be used ---------指定存储日志信息的文件
--loglevel=LEVEL, -L LEVEL ---------------控制日志等级
log level (default: DEBUG)
--nolog disable logging completely ----------不显示
--profile=FILE write python cProfile stats to FILE
--pidfile=FILE write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
set/override setting (may be repeated)
--pdb enable pdb on failure

2.runspider命令 -----------可以实现不依托Scrapy的爬虫项目，直接运行一个爬虫文件

3.settings命令 -----------查看Scrapy对应的配置信息
例如：scrapy settings --get BOT_NAME来查看配置信息中BOT_NAME对应的值

4.shell命令 ------------启动Scrapy的交互终端，可以实现在不启动Scrapy爬虫的情况下，对网站
响应进行调试
例如：scrapy shell http://www.baidu.com --nolog

5.startproject命令 -----------用于创建项目

6.version命令 --------------用于显示Scrapy的版本相关信息

7.view命令 ----------实现下载某个网页并使用浏览器查看

Scrapy的项目命令：bench、check、crawl、edit、genspider、list、parse

1.bench命令 ---------用来测试本地硬件的性能

2.genspider命令 ----------用来创建scrapy爬虫文件，是一种快速创建爬虫文件的方式

使用该命令可以基于现有的爬虫模板直接生成一个新的爬虫文件，当前可以使用的爬虫模板有

basic crawl csvfeed xmlfeed等，可以基于任意一个爬虫模板来生成爬虫文件

例如：scrapy genspider -t basic fengkai iqianyue.com

（scrapy genspider -t basic 模板新爬虫名称爬取域名）

scrapy genspider -d csvfeed可以查看对应模板中的具体内容

3.check命令 -------用来检查是否有错误
例如：scrapy check fengkai

4.crawl命令 ----------启动爬虫
如：scrapy crawl fengkai --loglevel=INFO

5.list命令 ----------列出当前可使用的爬虫文件
例如：scrapy list

6.edit命令 ----------直接对某个爬虫文件进行编辑

例如：scrapy edit fengkai

7.parse命令 ---------通过parse命令，可以实现获取指定的URL网址，并使用爬虫文件进行处理和分析

如：scrapy parse http://www.baidu.com --spider=fengkai --nolog

此时，我们指定了爬虫文件fengkai进行处理

猜你喜欢