scrapy命令行入门学习

在这里插入图片描述

Windows 下创建一个scrapy项目：
打开cmd

scrapy createproject 项目名

如果你想在指定目录创建项目后面可以加上项目路径如：

scrapy createproject myproject c:\\scrapycode

或者是直接进入项目路径直接创建：

c:
cd scrapycode
scrapy createproject myproject

创建一个spider

scrapy genspider baidu www.baidu.com

参数 -l查看可使用的模板

scrapy genspider -l

在这里插入图片描述
-t指定创建的模板如果对创建的spider有特殊需求的可以使用模板

scrapy genspider -t basic baidu www.baidu.com

在这里插入图片描述
运行spider：

scrapy crawl +spider的名字

查错：

scrapy check

可以检查spider中的语法错误是很好的调试工具

查看项目中所有spider的名称

scrapy list

编辑spider

scrapy edit +spider的名字

此命令不常用一般是创建好spider后在编辑器中打开编辑

fetch
和request、urlopen类似请求url并返回源代码

scrapy fetch http://www.baidu.com

参数

#不生成日志
scrapy fetch --nolog http://www.baidu.com

#返回响应头信息
scrapy fetch --headers http://www.baidu.com

#禁止重定向
scrapy fetch --no-redirect http://www.baidu.com

view
请求一个url并下载然后在浏览器中打开是一个很好的调试工具可以看出网页的数据那些是静态的哪些是ajax加载的

scrapy view http://baidu.com

shell
命令行交互模式可以调试程序

scrapy shell http://baidu.com

打开shell后可以输入如request response.text response response.headers 等命令调试程序还可以测试选择器是否能够选中标签如

response.css('.title::text').extract_first()

parse
解析网页需要进入项目目录

#-c 为回调后面加自己在项目中定义的parse
scrapy parse http://www.baidu.com -c parse

settings
配置信息
比如说我在settings中设置了mongodb的url我可以使用–get来获得它

scrapy settings --get MONGO_URI

-h可以打印帮助信息
runspider

#scrapy runspider +spider的文件名
scrapy runspider spider.py

他与crawl的区别是不用进入项目目录但是需要spider的文件名

version
查看scrapy的版本信息

scrapy version

-v
查看所有依赖库的版本

scrapy version -v

bench
测试性能每分钟可以爬取多少页面

scrapy bench