Scrapy的全局命令:
--spider=SPIDER use this spider ----------控制使用哪个爬虫
--headers print response HTTP headers instead of body -------控制显示爬取网页的头信息
--no-redirect do not handle HTTP 3xx status codes and print response
as-is
Global Options
--------------
--logfile=FILE log file. if omitted stderr will be used ---------指定存储日志信息的文件
--loglevel=LEVEL, -L LEVEL ---------------控制日志等级
log level (default: DEBUG)
--nolog disable logging completely ----------不显示
--profile=FILE write python cProfile stats to FILE
--pidfile=FILE write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
set/override setting (may be repeated)
--pdb enable pdb on failure
2.runspider命令 -----------可以实现不依托Scrapy的爬虫项目,直接运行一个爬虫文件
3.settings命令 -----------查看Scrapy对应的配置信息
例如:scrapy settings --get BOT_NAME来查看配置信息中BOT_NAME对应的值
4.shell命令 ------------启动Scrapy的交互终端,可以实现在不启动Scrapy爬虫的情况下,对网站
响应进行调试
例如:scrapy shell http://www.baidu.com --nolog
5.startproject命令 -----------用于创建项目
6.version命令 --------------用于显示Scrapy的版本相关信息
7.view命令 ----------实现下载某个网页并使用浏览器查看
Scrapy的项目命令:bench、check、crawl、edit、genspider、list、parse
1.bench命令 ---------用来测试本地硬件的性能
2.genspider命令 ----------用来创建scrapy爬虫文件,是一种快速创建爬虫文件的方式
scrapy genspider -d csvfeed可以查看对应模板中的具体内容
3.check命令 -------用来检查是否有错误
例如:scrapy check fengkai
4.crawl命令 ----------启动爬虫
如:scrapy crawl fengkai --loglevel=INFO
5.list命令 ----------列出当前可使用的爬虫文件
例如:scrapy list
6.edit命令 ----------直接对某个爬虫文件进行编辑
7.parse命令 ---------通过parse命令,可以实现获取指定的URL网址,并使用爬虫文件进行处理和分析
1.fetch 用来显示爬虫爬取的过程
通过 scrapy fetch 网址 的形式显示出爬取对应网址的过程
--headers print response HTTP headers instead of body -------控制显示爬取网页的头信息
--no-redirect do not handle HTTP 3xx status codes and print response
as-is
Global Options
--------------
--logfile=FILE log file. if omitted stderr will be used ---------指定存储日志信息的文件
--loglevel=LEVEL, -L LEVEL ---------------控制日志等级
log level (default: DEBUG)
--nolog disable logging completely ----------不显示
--profile=FILE write python cProfile stats to FILE
--pidfile=FILE write process ID to FILE
--set=NAME=VALUE, -s NAME=VALUE
set/override setting (may be repeated)
--pdb enable pdb on failure
2.runspider命令 -----------可以实现不依托Scrapy的爬虫项目,直接运行一个爬虫文件
3.settings命令 -----------查看Scrapy对应的配置信息
例如:scrapy settings --get BOT_NAME来查看配置信息中BOT_NAME对应的值
4.shell命令 ------------启动Scrapy的交互终端,可以实现在不启动Scrapy爬虫的情况下,对网站
响应进行调试
例如:scrapy shell http://www.baidu.com --nolog
5.startproject命令 -----------用于创建项目
6.version命令 --------------用于显示Scrapy的版本相关信息
7.view命令 ----------实现下载某个网页并使用浏览器查看
Scrapy的项目命令:bench、check、crawl、edit、genspider、list、parse
1.bench命令 ---------用来测试本地硬件的性能
2.genspider命令 ----------用来创建scrapy爬虫文件,是一种快速创建爬虫文件的方式
使用该命令可以基于现有的爬虫模板直接生成一个新的爬虫文件,当前可以使用的爬虫模板有
basic crawl csvfeed xmlfeed等,可以基于任意一个爬虫模板来生成爬虫文件
例如:scrapy genspider -t basic fengkai iqianyue.com
(scrapy genspider -t basic 模板 新爬虫名称 爬取域名)scrapy genspider -d csvfeed可以查看对应模板中的具体内容
3.check命令 -------用来检查是否有错误
例如:scrapy check fengkai
4.crawl命令 ----------启动爬虫
如:scrapy crawl fengkai --loglevel=INFO
5.list命令 ----------列出当前可使用的爬虫文件
例如:scrapy list
6.edit命令 ----------直接对某个爬虫文件进行编辑
例如:scrapy edit fengkai
7.parse命令 ---------通过parse命令,可以实现获取指定的URL网址,并使用爬虫文件进行处理和分析
如:scrapy parse http://www.baidu.com --spider=fengkai --nolog
此时,我们指定了爬虫文件fengkai进行处理