爬虫分类:
根据网络爬虫的尺寸:
- 爬取网页,玩转网页:小规模,数据量小,爬取速度不敏感,requests库
- 爬取网站,爬取系列网站:中规模爬虫,爬取规模较大,速度比较敏感,Scrapy库
- 爬取全网:大规模,搜索引擎,爬取速度关键
问题:
网络爬虫会对网络资源带来巨大的开销,可能给个人带来隐私泄漏,还有一定的法律风险。
网络爬虫的限制:
1,来源审查:判断user-agent进行限制
2,发布公告:Robots协议
Robots协议:网络爬虫排除标准
网站告诉爬虫哪些内容可以爬取,哪些不行。
在网站根目录下的robots.txt文件
robots协议的使用:自动或人工识别robots.txt,再进行内容爬取。