二、爬行基础（2）

在网络爬虫爬取的过程，在待爬取的URL列表中，可能有很多URL地址，那么这些URL地址，爬虫应该先爬取哪个，后爬取哪个呢？在通用网络爬虫中，虽然爬取的顺序并不是那么重要，但是在其他很多爬虫中，比如聚焦网络爬虫中，爬取的顺序非常重要，而爬取的顺序，一般由爬行策略决定。
爬行策略主要有深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、其他爬行策略等。

网站图：

深度优先：

广度优先：

大站爬行策略：

反链策略：

网页更新策略：

用户体验策略：

历史数据策略：

聚类分析策略：

1）首先，经过大量的研究发现，网页可能具有不同的内容，但是一般来说，具有类似属性的网页，其更新频率类似。这是聚类分析算法运用在爬虫网页的更新上的一个前提指导思想。

网页分析算法：

1.基于用户行为的网页分析算法

2.基于网络拓扑的网页分析算法

网页粒度分析算法：

PageRank算法

基于网页块粒度的分析算法

基于网页块粒度的分析算法，也是依靠网页间链接关系进行计算的，但计算规则有所不同。
一个网页中通常会包含多个超链接，但一般其指向的外部链接中并不是所有的链接都与网站主题相关，或者说，这些外部链接对该网页的重要程度是不一样的，所以若要基于网页块粒度进行分析，则需要对一个网页中的这些外部链接划分层次，不同层次的外部链接对于该网页来说，其重要程度不同。这种算法的分析效率和准确率，会比传统的算法好一些。

基于网站粒度的分析算法

会划分站点的层次和等级，而不再具体地计算站点下的各个网页的等级。相对于基于网页粒度的算法来说，则更加简单高效，但是会带来一些缺点，比如精确度不如基于网页粒度的分析算法精确。

3.基于网页内容的网页分析算法

身份识别：

爬虫对网页爬取的过程中，爬虫必然需要访问对应的网页，正规的爬虫一般会告诉对应网页的网站站长其爬虫身份。网站的管理员则可以通过爬虫告知的身份信息对爬虫的身份进行识别
一般爬虫在对网页进行爬取访问的时候，会通过HTTP请求中的User Agent字段告知自己的身份信息
一般爬虫访问一个网站的时候，首先会根据该站点下的Robots.txt文件来确定可爬取的网页范围，Robots协议是需要网络爬虫共同遵守的协议，对于一些禁止的URL地址，网络爬虫则不应爬取访问。
如果爬虫在爬取某一个站点时陷入死循环，造成该站点的服务压力过大，如果有正确的身份设置，那么该站点的站长则可以想办法联系到该爬虫方，然后停止对应的爬虫程序。
有些爬虫会伪装成其他爬虫或浏览器去爬取网站，以获得一些额外数据，或者有些爬虫，会无视Robots协议的限制而任意爬取。

爬虫实现技术：

开发网络爬虫的语言有很多，常见的语言有：Python、Java、PHP、Node.JS、C++、Go语言等。