引言
在第一篇如何写第一个scrapy里面,我们是使用字典来对数据进行传递,使用字典有以下缺点。
- 无法直观地了解数据中包含哪些字段
- 缺乏对字段名字的检测
- 不便于携带元数据
为了克服上述问题,我们可以使用scrapy中自定义的item类封装爬取到的数据。
spider.py文件
import scrapy
from books.bookitem import BookItems
class BooksSpider(scrapy.Spider):
name = "start"
start_urls = ["http://books.toscrape.com/"]
def parse(self, response):
for book in response.css('article.product_pod'):
name = book.xpath('./h3/a/@title').extract_first()
price = book.css('p.price_color::text').extract_first()
item = BookItems()
item['name'] = name
item['price'] = price
yield item
next_url = response.css('ul.pager li.next a::attr(href)').extract_first()
if next_url:
next_url = response.urljoin(next_url)
yield scrapy.Request(next_url , callback=self.parse)
新建一个文件bookitem.py
from scrapy import Item,Field
class BookItems(Item):
name = Field()
price = Field()
可以看到运行结果如下:
正确传送了name和price数据。
核心代码解读
item = BookItems()
item[‘name’] = name
item[‘price’] = price
yield item
首先实例化BookItems,然后将解析得到的name和price传入给item,并用yield返回给引擎处理。
注意,这里item的键是和定义的字段相对应的,如果写成item[‘names’] = name,会报错。
class BookItems(Item):
name = Field()
price = Field()
Item类是自定义数据类(BookItems)的基类,需要被自定义数据类继承。
Field类是用来描述自定义数据类包含哪些字段,如name、price等。
小结
该篇简单介绍了Item基类和用来定义字段的Field类的用法,还有更多的用法以后再学习。