爬虫和反爬虫，你了解多少？ - 代码天地

爬虫和反爬虫，你了解多少？

其他 2020-03-09 22:22:32 阅读次数: 0

网络爬虫本质就是 http 请求，浏览器是用户主动操作然后完成 HTTP 请求，而爬虫需要自动完成http请求，网络爬虫需要一套整体架构完成工作。

爬虫

一个完整的爬虫生命周期包括：URL管理、页面下载、内容抽取、持久化。

URL管理

首先 url 管理器添加了新的 url 到待爬取集合中，判断了待添加的 url 是否在容器中、是否有待爬取的 url，并且获取待爬取的 url，将 url 从待爬取的 url 集合移动到已爬取的 url 集合。

页面下载

下载器将接收到的url传给互联网，互联网返回html文件给下载器，下载器将其保存到本地，一般的会对下载器做分布式部署，一个是提交效率，再一个是起到请求代理作用。

内容抽取

页面解析器主要完成的是从获取的 html 网页字符串中取得有价值的感兴趣的数据和新的 url 列表。数据抽取比较常用的手段有基于 css 选择器、正则表达式、 xpath 的规则提取。一般提取完后还会对数据进行一定的清洗或自定义处理，从而将请求到的非结构数据转化为我们需要的结构化数据。

数据持久化

数据持久化到相关的数据库、队列、文件等方便做数据计算和与应用对接。

反爬虫

使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。

PANjj99

发布了461 篇原创文章 · 获赞 102 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_43539599/article/details/104660697

爬虫和反爬虫，你了解多少？

‘爬虫-反爬’知多少

爬虫，反爬虫和反反爬虫

猫哥教你写爬虫 048--爬虫和反爬虫

一入爬虫深似海，反爬技术你知多少？

爬虫过程和反爬

python爬虫——爬虫伪装和反“反爬”

反爬虫

爬虫了解和准备

换IP软件带你了解网站的反爬虫策略有哪些

网络爬虫反爬虫

爬虫与反爬虫

爬虫VS反爬虫

爬虫反爬虫

Python的爬虫与反爬虫

scrapy爬虫与反爬虫

爬虫反爬虫

爬虫与反爬虫大战

那些你不知道的爬虫反爬虫套路

Java 那些你不知道的爬虫反爬虫套路

干货 | 那些你不知道的爬虫反爬虫套路

爬虫原理与数据抓取-----（了解）通用爬虫和聚焦爬虫

【Python爬虫】Python 爬虫的学习和案例，一篇文章带你了解爬虫的密码

爬虫的一些步骤和怎样进行反爬虫

requests发送数据和对反爬虫的处理 ----------python的爬虫学习

urllib发送数据和对反爬虫的处理 ----------python的爬虫学习

Python进阶 │反爬虫和怎样反反爬虫

Python爬虫中的数据存储和反爬虫策略

Python网络爬虫（七）了解爬取与反爬策略

爬虫与反爬之-爬虫

今日推荐

周排行

vue + echart +map中国地图，省市地图，区县地图

spring boot2 (31)-cors跨域请求

『学习资料推荐』299元买的微信营销资料打包

个人学习卷积神经网络的疑惑解答

网络工程师-软考

模拟人生4 春夏秋冬、星梦起飞版更新下载方法以及常见问题

python关于对象的字符串显示str和repr以及

奇怪的session混乱问题

【3】分治法（divide-and-conquer）

Java项目开发成绩管理系统（九）各模块实现信息修改

每日归档

更多

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)