scrapy 的配置在项目目录下的 setting.py 文件中
配置并发数量,增加执行效率
CONCURRENT_REQUESTS = 30
设置下载延迟(防止请求同时到达服务器,给服务器造成压力,同时避免被ban)
DOWNLOAD_DELAY = 0.25
配置请求头部,针对反爬虫的网站
DEFAULT_REQUEST_HEADERS = { "User-Agent": Agent, 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' }
请求失败的情况下scrapy 提供了一个从新请求的中间件
DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.retry.RetryMiddleware': 80 } RETRY_TIMES = 100
RETRY_TIMES 是指的从新请求的次数
自动限速(不限速有可能会被ban)
AUTOTHROTTLE_ENABLED = True