6-19

其他 2018-06-19 19:19:46 阅读次数: 2

一个网络蜘蛛就是一种机器人，或者软件代理。大体上，它从一组要访问的URL链接开始，可以称这些URL为种子。爬虫访问这些链接，它辨认出这些页面的所有超链接，然后添加到这个URL列表，可以称作检索前沿。这些URL按照一定的策略反复访问。

主要内容

· 1 爬行策略

o 1.1 选择策略

§ 1.1.1 限定访问链接

§ 1.1.2 路径检索

§ 1.1.3 聚焦检索

§ 1.1.4 抓取深层的网页

§ 1.1.5 Web 3.0检索

o 1.2 重新访问策略

o 1.3 平衡礼貌策略

o 1.4 并行化策略

· 2 网络爬虫体系结构

o 2.1 URL规范化

· 3 爬虫身份识别

· 4 网络爬虫的例子

猜你喜欢

转载自www.cnblogs.com/coder-2017/p/9200611.html

6-19

[联合集训6-19] 山洞点分树

Flutter基础学习 6-19 ListView 列表组件简介

6-19 day17 内置函数 16:52-17:43

6-19 day16 map filter reduce 等 4:24 ——5:00

[联合集训6-19] K小数查询分块+二分答案

[联合集训6-19] 新干线猜测题意+拆点网络流

6-19 使用函数求1到10的阶乘和 (10分)

例题6-19 UVA1572 Self-Assembly（39行AC代码）

多列输出函数《python 核心编程》习题6-19

10-19学习

11-19 动画

01-19作业

12-19

TXNLP 09-19

12-19 js

11-19 hashlib模块

梦笔记：11-19

XSS Chanllenges 16-19

2019.9.25 pm-19:35

团队编程（10-19）

5-19

4-19

4-19总结

2-19 递归

3-19

6-12

6-15

6-17

6-11

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)