如何使用scrapy的item来封装数据

引言

在第一篇如何写第一个scrapy里面，我们是使用字典来对数据进行传递，使用字典有以下缺点。

无法直观地了解数据中包含哪些字段
缺乏对字段名字的检测
不便于携带元数据

为了克服上述问题，我们可以使用scrapy中自定义的item类封装爬取到的数据。

spider.py文件

import  scrapy
from books.bookitem import BookItems

class BooksSpider(scrapy.Spider):

    name = "start"
    start_urls = ["http://books.toscrape.com/"]

    def parse(self, response):
        for book in response.css('article.product_pod'):
            name = book.xpath('./h3/a/@title').extract_first()
            price = book.css('p.price_color::text').extract_first()
            item = BookItems()
            item['name'] = name
            item['price'] = price
            yield item

        next_url = response.css('ul.pager li.next a::attr(href)').extract_first()
        if next_url:
            next_url = response.urljoin(next_url)
            yield scrapy.Request(next_url , callback=self.parse)

这里写图片描述

新建一个文件bookitem.py

from scrapy import Item,Field

class BookItems(Item):

    name = Field()
    price = Field()

可以看到运行结果如下：
这里写图片描述
正确传送了name和price数据。

核心代码解读

item = BookItems()
item[‘name’] = name
item[‘price’] = price
yield item

首先实例化BookItems，然后将解析得到的name和price传入给item，并用yield返回给引擎处理。
注意，这里item的键是和定义的字段相对应的，如果写成item[‘names’] = name，会报错。

class BookItems(Item):
name = Field()
price = Field()

Item类是自定义数据类（BookItems）的基类，需要被自定义数据类继承。
Field类是用来描述自定义数据类包含哪些字段，如name、price等。

小结

该篇简单介绍了Item基类和用来定义字段的Field类的用法，还有更多的用法以后再学习。

如何使用scrapy的item来封装数据

引言

核心代码解读

小结

猜你喜欢