我的爬虫笔记(四)

其他 2021-11-21 23:31:54 阅读次数: 0

盗亦有道

网络爬虫有些是对网络有危害的,所以人们规定了一些东西,来进行对其的限制

网络爬虫,爬取网络资源需要遵循一定的协议

网站通过两种方式来限制网络爬虫

来源审查:大致就是,他只让认识的浏览器或者爬虫进行访问
Robots协议:就是提前告知哪些东西你可以爬取,哪些东西不行,然后我们可以通过在网址后面加上/robots.txt即可调出,该网址的Robots协议,例如百度 http://www.baidu.com/robots.txt

但是遵不遵循该协议还得看爬虫作者了

大致所有的网站都会有Robots协议来保证爬虫对其的危害

如果某些网站不提供Robots协议,那么就是默认爬虫可以随便进行内容提取

(如果你的爬虫爬取效率像人类一样,内容少,时间短,这是可以不遵循协议,因为爬虫的操作像人类一样,没有神魔危害)

那么问题来了,写爬虫怎莫才能遵循Robots协议呢

自动识别
人工看

猜你喜欢

转载自blog.csdn.net/qq_53950686/article/details/119253153

我的爬虫笔记(四)

python我的爬虫笔记

我的爬虫笔记（六）

我的爬虫笔记(五)

爬虫笔记四

3.26 爬虫笔记（四）

python爬虫笔记（四）:BeautifulSoup

Python爬虫学习笔记（四）

我的JavaScript笔记——四、IIFE

Python网络爬虫学习笔记（四）

python | 爬虫笔记（四）- 解析库使用

Python网络爬虫笔记（四）——requests与BeautifulSoup

Python爬虫学习笔记（四）————XPath解析

《精通python网络爬虫》学习笔记四——多线程爬虫

爬虫第四天：爬取我要看的小说

那些年，我爬过的北科(四)——爬虫进阶之极简并行爬虫框架开发

#Python学习笔记——爬虫的自我养成（一）

学习笔记--我的第一个爬虫项目

我的Python爬虫入门到项目研发心得笔记

爬虫学习笔记（四）正则表达式

爬虫笔记（四）——代理服务器的设置

Python爬虫笔记（四）——动态页面的处理（上篇）

python学习笔记之（爬虫浏览器伪装）（四）

软件工程阅读笔记（四）之Python网络爬虫

python爬虫学习笔记(四)-urllib库的高级用法

python网络爬虫学习笔记（四）：异常处理

这是我的爬虫笔记，希望的对正在学习Python爬虫的你有所帮助！

一入爬虫深似海，从此游戏是路人！总结我的python爬虫学习笔记！

一入爬虫深似海，从此游戏是路人！总结我的python爬虫学习笔记

SpringBoot + Spring Security 学习笔记（四）记住我功能实现

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)