Scrapy 项目步骤

1.创建项目:scrapy starproject 项目名
2.编写 items.py文件:设置需要保存的数据字段,明确想要抓取的目标,用来保存爬到的数据。
3.创建爬虫:scrapy genspider 爬虫名 “爬取的网址”
4.进入项目项目名/spiders
3个默认创建的:
name = " ":编写爬虫文件,文件里的 name 就是爬虫名(区别与项目名,唯一)
allowed_domains = []:允许的域组,规定爬虫这个域名下的网页,不存在的URL会被忽略。
start_urls = []:起始 url 地址,爬虫的开始
之后写方法处理响应内容:(xpath可以匹配出想要的数据,生成item,通过yield传到管道文件),在 setting.py 中设置管道文件的类名
5.存储内容:在pipelines.py中写管道类(必写item)

6.运行:
scrapy crawl itcast
scrapy crawl itcast - o json/csv/xml

Windows安装:pip install Scrapy

猜你喜欢

转载自blog.csdn.net/Nicole_218/article/details/84433593