使用scrapy爬虫框架批量下载图片 - 代码天地

使用scrapy爬虫框架批量下载图片

移动开发 2018-11-01 11:41:08 阅读次数: 0

settings.py(需要在settings中配置如下内容)

ITEM_PIPELINES = {
    # 启用scrapy自带的图片下载ImagesPipeline
    'scrapy.contrib.pipeline.images.ImagesPipeline': None,
    # 如果需要采用自定义的ImagesPipiline，需要将自带的ImagesPipelin设置为None
    'chinazSpider.pipelines.ImagesPipiline': 1,
}
# 配置图片的保存目录
IMAGES_STORE = 'images'
# 在ImagesPipeline进行下载图片时，配置图片对应的Item字段
IMAGES_URLS_FIELD = 'img_url'

pilelines.py

from scrapy.pipelines.images import ImagesPipeline
from scrapy.http import Request


class ImagesPipiline(ImagesPipeline):
    def get_media_requests(self, item, info):
        # 从item中获取要下载的图片的url，根据url构造Request()对象，并返回该对象
        image_url = item['img_url']
        yield Request(image_url, meta={'item': item})

    def file_path(self, request, response=None, info=None):
        # 用来自定义图片的下载路径
        item = request.meta['item']
        # 每个分类的名称
        category = item['sort_name'][:-2]
        # 图片的文件名
        img_name = item['img_url'].split('/')[-1]
        # 通过分类名和图片的文件名，拼接图片的相对路径
        path = category + '/' + img_name
        return path

    def item_completed(self, results, item, info):
        # 图片下载完成后，返回结果result
        print(results)
        return item

猜你喜欢

转载自blog.csdn.net/weixin_42336574/article/details/80946587

使用scrapy爬虫框架批量下载图片

Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片

爬虫实战篇---使用Scrapy框架进行汽车之家宝马图片下载爬虫

python爬虫之Scrapy框架，基本介绍使用以及用框架下载图片案例

爬虫 Scrapy框架爬取图虫图片并下载

爬虫2.4-scrapy框架-图片分类下载

爬虫框架Scrapy 的使用

Scrapy爬虫框架的使用

[Python爬虫]使用Scrapy框架爬取图虫图片

Python - 爬虫使用scrapy框架获取豆瓣图片信息

爬虫 - Scrapy 框架-CrawlSpider以及图片管道使用

python 爬虫批量下载图片

爬虫批量下载图片并清理

在Scrapy框架中创建爬虫项目运行爬虫和配置下载图片

Scrapy框架学习 - 使用内置的ImagesPipeline下载图片

scrapy操作mysql/批量下载图片

Scrapy框架的使用之Scrapy通用爬虫

【爬虫框架-scrapy】scrapy工具的使用

爬虫scrapy框架安装使用

使用Scrapy框架爬虫实例

Python爬虫框架Scrapy的使用

004 使用scrapy框架爬虫

Scrapy爬虫框架基本使用

使用Scrapy框架编写爬虫

【爬虫框架】Scrapy基本使用

scrapy爬虫之pipelines图片下载

2018 - Python 3.7 爬虫之利用 Scrapy 框架获取图片并下载（二）

Python笔记：爬虫框架Scrapy抓取数据入库及图片下载流程处理

Python爬虫之Scrapy框架系列（19）——实战下载某度猫咪图片【媒体管道类】

scrapy--- 爬虫框架爬取图片

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)