1.创建项目文件夹:scrapy startproject myxml
2.编辑 items 文件,定义要存储的结构化数据
3.创建一个爬虫文件用于分析 XML 源:
1)scrapy genspider -l 先查询可使用爬虫模板文件
2)scrapy genspider -t xmlfeed myxmlspider sina.com.cn 使用模板 xmlfeed 创建一个名为 myxmlspide 的爬虫文件,允许的 域名设置为 sina.com.cn
3)生成的文件在 spiders 目录下
- iterator 属性设置使用哪个迭代器
- itertag 属性设置开始迭代的节点
4.运行:切换到项目文件夹:scrapy crawl myxmlspide --nolog --nolog 为不显示日志文件