scrapy框架--管道类过滤项目相同ID部分

复制过滤器

用于查找重复项目并删除已处理的项目的过滤器。假设我们的项目具有唯一的ID,但是我们的蜘蛛会返回具有相同id的多个项目:

from scrapy.exceptions import DropItem

class DuplicatesPipeline(object):

    def __init__(self):
        self.ids_seen = set()

    def process_item(self, item, spider):
        if item['id'] in self.ids_seen:
            抛出、返回
            raise DropItem("Duplicate item found: %s" % item)
        else:
            self.ids_seen.add(item['id'])
            return item




链接:https://www.jianshu.com/p/8d65da080c47
 

猜你喜欢

转载自blog.csdn.net/Ren_ger/article/details/83825400