反爬虫策略

编程语言 2019-02-23 09:50:50 阅读次数: 0

策略一：设置download_delay

作用：设置下载的等待时间，大规模集中的访问对服务器的影响最大，相当与短时间中增大服务器负载。
缺点：下载等待时间长，不能满足段时间大规模抓取的要求，太短则大大增加了被ban的几率。

策略二：禁止cookies

Cookie，有时也用其复数形式 Cookies，指某些网站为了辨别用户身份、进行 session跟踪而储存在用户本地终端上的数据（通常经过加密）。
作用：禁止cookies也就防止了可能使用cookies识别爬虫轨迹的网站得逞。
实现：COOKIES_ENABLES=False

策略三：使用user agent池(拓展: 用户代理中间件)

为什么使用? scrapy本身是使用Scrapy/0.22.2来表明自己身份的。这也就暴露了自己是爬虫的信息。
user agent，是指包含浏览器信息、操作系统信息等的一个字符串，也称之为一种特殊的网络协议。服务器通过它判断当前访问对象是浏览器、邮件客户端还是网络爬虫。

通常在下载器中间件中进行处理。比如在setting.py中建立一个包含很多浏览器User-Agent的列表，然后新建一个random_user_agent文件：

class RandomUserAgentMiddleware(object):
    @classmethod
    def process_request(cls, request, spider):
        ua = random.choice(spider.settings['USER_AGENT_LIST'])
        if ua:
            request.headers.setdefault('User-Agent', ua)

这样就可以在每次请求中，随机选取一个真实浏览器的User-Agent。

策略四：使用代理IP中间件

web server应对爬虫的策略之一就是直接将你的IP或者是整个IP段都封掉禁止访问，这时候，当IP封掉后，转换到其他的IP继续访问即可。

策略五: 分布式爬虫Scrapy+Redis+MySQL(多进程)

Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。
它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule)，并对爬取产生rapy一些比较关键的代码，将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。

猜你喜欢

转载自blog.csdn.net/dodobibibi/article/details/87888702

关于反爬虫策略

反爬虫策略

反爬虫策略实例

详解爬虫策略，反爬虫策略，反反爬爬虫策略

scrapy项目反爬虫策略

反爬虫策略调研与分析

反爬虫策略分析及处理

解决猫眼网反爬虫策略的爬虫

爬虫与反爬虫系统的设计思路与策略

反爬虫总结 | 必须掌握的6种反爬虫策略

转互联网反爬虫策略

各大前端巨头反爬虫策略

各大型网站反爬虫策略

防止爬虫被反几个常见策略

常见反爬虫方法及绕过策略

数据安全之反爬虫策略

python爬虫采集反爬策略

反爬虫策略的应对方法汇总

反爬虫常见策略总结

关于爬虫与反爬虫对抗过程以及策略

爬虫11-scrapy突破反爬虫策略

Scrapy学习笔记(6)-反爬虫与反反爬虫策略

python爬虫教程：python解决网站的反爬虫策略总结

抖音爬虫教程，python爬虫采集反爬策略

Python爬虫中的数据存储和反爬虫策略

爬虫爬取方法分析与反爬虫策略

反爬虫策略浅析：识别，拒绝与防火墙范例

互联网网站的反爬虫策略浅析--转载

scrapy基础知识之防止爬虫被反的几个策略

Python网络爬虫反爬破解策略实战

今日推荐

周排行

深度学习------Lingvo框架下的加速通道GPipe

webjars管理静态资源

C专家编程_2.2

mysql 源码安装

json文件操作

123231432

注解的实现

Spring MVC 控制器

《人月神话》读后感二

C#使用HttpWebRequest和HttpWebResponse上传文件示例

每日归档

更多

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)

2024-09-05(0)

2024-09-04(0)

2024-09-03(0)

2024-09-02(0)

2024-09-01(0)

2024-08-31(0)

2024-08-30(0)