【Scrapy-02】图片网站的爬虫开发技巧和案例 - 代码天地

【Scrapy-02】图片网站的爬虫开发技巧和案例

其他 2018-05-08 16:34:58 阅读次数: 3

1、主要用到的技巧。

——绕过反爬的一些设置主要在settings.py里面，这个案例用了三个设置。

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

——有些网站采用了懒加载，这个懒加载我们直接爬取首页是爬不到的，需要拿到懒加载的网址，然后手动请求一下这个网址，然后分析这个网址的response。

# 这边直接通过接口获得频道连接
start_urls = ['xxx']

——有的时候，懒加载的response可能是个json形式，而且里面还有很多转义的标识符\，这个时候，我们可以用python字符串的replace方法处理一下。

# 拿到的链接需要处理一下转义字符
cateurl = cateurl.replace("\/", "/")

——下载图片的方法在urllib.request下面，所以导入包的时候需要注意。

import urllib.request

urllib.request.urlretrieve（url,filename）

2、案例里面去掉了具体的网站信息，爬虫仅供学习用。

下载地址：用scrapy爬取下载某图片网站的全部图片

猜你喜欢

转载自blog.csdn.net/wsb200514/article/details/77370738

【Scrapy-02】图片网站的爬虫开发技巧和案例

scrapy爬取帅哥图片网站

用爬虫爬取某妹子图片网站图片

xpath爬虫实例，爬取图片网站百度盘地址和提取码

python--爬虫--积累--多图片网站抓取加速方案和调优记录

图片网站模板

图片网站分享

商业图片网站

高清图片网站

多进程爬取某图片网站（python爬虫）

图片网站中的懒加载和预加载（转）

压缩图片网站

基于scrapy的搜索引擎（二）：爬取图片网站

python使用requests爬虫抓取美女图片网站图片

requests+bs4批量爬取反爬虫图片网站

我用java爬虫爬了一个图片网站

scrapy-02：创建工程项目的简单步骤

python爬虫妹子图片网

国内图片网站Yupoo的架构

nginx.conf 图片网站的配置

免费可商用图片网站整理

免费高清无版权图片网站

无版权图片网站汇总

vue实现好看的相册、图片网站

python爬虫通过图片网址保存图片

批量爬取某图片网站的图片

用python爬取某个图片网站的图片

Scrapy框架爬虫案例

scrapy爬虫案例

scrapy爬虫简单案例

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)