Scrapy爬虫爬图 - 代码天地

Scrapy爬虫爬图

其他 2019-05-25 10:48:00 阅读次数: 0

爬取 https://www.zhainanfu.com/tuku 下的图片，分别保存在各自的文件夹。
使用scrapy的ImagesPipeline类，参考https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/images.html，但是官方文档中使用的时默认路径，无法分类保存，需要重写file_path函数，代码如下：

class MyImagesPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        yield scrapy.Request(url=item['src'], meta={'item': item})

    def item_completed(self, results, item, info):
        return item

    def file_path(self, request, response=None, info=None):
        item = request.meta["item"]
        img_name =os.path.basename(item['src'])
        image_path = os.path.join(IMAGES_STORE, item['title'], img_name)
        if os.path.exists(image_path):
            md5 = hashlib.md5()
            md5.update(item['src'].encode("utf-8"))
            img_name = md5.hexdigest() + os.path.splitext(img_name)[-1]
            image_path = os.path.join(IMAGES_STORE, item['title'], img_name)
        print(image_path)
        return image_path

另外就是，scrapy的ImagesPipeline默认将所有下载的图片转换成通用的格式（JPG）和模式（RGB），因此对于gif文件下载后就全是静态图片，需要去重写ImagesPipeline中的下载方法，暂时没有做，也可以直接在PictureSpiderPipeline中进行下载处理。

详细代码见：https://github.com/50th/picture_spider/tree/master

猜你喜欢

转载自www.cnblogs.com/shouwangrenjian/p/10921503.html

Scrapy爬虫爬图

爬虫项目：scrapy爬取昵图网全站图片

爬虫 Scrapy框架爬取图虫图片并下载

[Python爬虫]使用Scrapy框架爬取图虫图片

Python之Scrapy爬虫实战--爬取妹子图

爬虫爬妹子图

java爬虫~爬图

scrapy爬虫爬取动态网站

scrapy爬虫遇坑爬坑记录

Scrapy 爬虫实战-爬取字幕库

爬虫 Scrapy框架"链家爬取"

python 爬虫 scrapy 爬取腾讯招聘

scrapy--- 爬虫框架爬取图片

scrapy定制爬虫-爬取javascript内容

Scrapy爬虫Demo 爬取资讯分类

Scrapy爬虫爬取电影天堂

python爬虫-爬妹子图

爬虫练习--爬妹子图

Scrapy框架爬取海量妹子图

使用scrapy爬取妹子图（一）

scrapy 也能爬取妹子图？

使用python的scrapy框架爬图+图文

scrapy-爬取斗图

scrapy爬虫和自写爬虫对比--爬jobbole文章

scrapy爬虫-爬取拉勾网职位信息

Python爬虫：scrapy爬取腾讯社招职位信息

Python爬虫实战：Scrapy豆瓣电影爬取

scrapy进阶（CrawlSpider爬虫__爬取整站小说）

scrapy爬虫之爬取拉勾网职位信息

scrapy爬虫入门：爬取《id97》电影

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)