前言
上一节学习了requests库,这一节学习robots协议
限制爬虫的方法
- 审查爬虫来源,需要网站作者有一定的编程基础
- 声明robots协议,一般放在网站的根目录下,robots.txt文件
京东robots协议
User-agent: *
Disallow: /?*
Disallow: /pop/.html
Disallow: /pinpai/.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /
其他robots协议
百度robots协议
新浪robots协议
qq的robots协议
qq新闻robots协议
国家教育部无robots协议
网站不提供robots协议则全网可以随意爬取
robots协议的使用
- 任意爬虫文件应该可以自动识别robots.txt文件
- 不遵守爬虫协议则可能面临法律风险
- 低频率的爬虫访问网站是允许的,但不可商用
总结
爬虫协议说明:
User-angent: *表示所有用户
Disallow:/表示所有目录不可爬取