爬虫背景调研 - 代码天地

爬虫背景调研

其他 2018-11-04 11:01:04 阅读次数: 0

来自用pathon写网络爬虫

在深入讨论爬取一个网站之前，我们首先需要对目标站点的规模和结构进行一定程度的了解。网站自身的robots.txt 和Sitemap文件都可以为我们提供一定的帮助，此外还有一些能提供更详细信息的外部工具，比如Goog le 搜索和WHOIS。

robots.txt

Robot.txt规定了网站对于爬虫的限制。

Section1:禁止用户代理为B adCrawler 的爬虫爬取该网站，不过这种写法可能无法起到应有的作用，因为恶意爬虫根本不会遵从robots. txt 的要求。

Section2:无论使用哪种用户代理，都应该在两次下载请求之间给出5秒的抓取延迟.／trap 链接，用于封禁那些爬取了不允许链接的恶意爬虫。如果你访问了这个链接，服务器就会封禁你的 IP 一分钟！一个真实的网站可能会对你的 IP 封禁更长时间，甚至是永久封禁。／trap 链接，用于封禁那些爬取了不允许链接的恶意爬虫。如果你访问了这个链接，服务器就会封禁你的 IP 一分钟！一个真实的网站可能会对你的 IP 封禁更长时间，甚至是永久封禁。

Section3:定义了一个Sitemap 文件。

网站地图

网站提供的Sitemap 文件（即网站地图）可以帮助爬虫定位网站最新的内容，而无须爬取每一个网页。网站地图提供了所有网页的链接。虽然Sitemap文件提供了一种爬取网站的有效方式，但是我们仍需对其谨慎处理，因为该文件经常存在缺失、过期或不完整的问题。

估算网站大小

估算网站大小的一个简便方法是检查Google爬虫的结果。不过有时候对于大型网站谷歌的估算并不十分精准。

在域名后面添加URL路径，可以对结果进行过滤，仅显示网站的某些部分。

使用builtwith识别网站所用技术

该python模块将URL作为参数，下载该URL并对其进行分析，然后返回该网站使用的技术。

使用pip安装

寻找网站所有者

使用python模块python-whois查看网站所有者。

猜你喜欢

转载自blog.csdn.net/whimewcm/article/details/83583022

爬虫背景调研

网络爬虫调研报告

反爬虫策略调研与分析

SSL加速卡调研的原因及背景

OCR-字体颜色与背景颜色区分不明显的调研

WAF产品研究分析（背景需求，基本攻防原理、产品调研、市场分析、未来趋势）

python爬虫王者荣耀高清皮肤大图背景故事通用爬虫

【python--爬虫】千图网高清背景图片爬虫

背景

论文调研

Consul调研

storm调研

需求调研

MPP调研

文献调研

场景调研

tidb调研

开题调研

CCNx调研

产品调研

rxjava调研

mpush调研

调研博客

Clickhouse调研

JDeploy调研

Kubeflow调研

架构调研

近期调研

ChatGPT调研

ORCON调研

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)