1、主要用到的技巧。
——绕过反爬的一些设置主要在settings.py
里面,这个案例用了三个设置。
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
# Disable cookies (enabled by default)
COOKIES_ENABLED = False
——有些网站采用了懒加载,这个懒加载我们直接爬取首页是爬不到的,需要拿到懒加载的网址,然后手动请求一下这个网址,然后分析这个网址的response
。
# 这边直接通过接口获得频道连接
start_urls = ['xxx']
——有的时候,懒加载的response
可能是个json
形式,而且里面还有很多转义的标识符\
,这个时候,我们可以用python
字符串的replace
方法处理一下。
# 拿到的链接需要处理一下转义字符
cateurl = cateurl.replace("\/", "/")
——下载图片的方法在urllib.request
下面,所以导入包的时候需要注意。
import urllib.request
urllib.request.urlretrieve(url,filename)
2、案例里面去掉了具体的网站信息,爬虫仅供学习用。