爬虫初始 - 代码天地

爬虫初始

其他 2019-12-02 19:51:31 阅读次数: 0

爬虫

什么是爬虫
- 就是通过编写程序模拟浏览器上网，让其去互联网中抓取数据的过程。
爬虫的分类：
- 通用爬虫：爬取一整张页面源码数据。
- 聚焦爬虫：爬取页面中局部的数据。一定是在通用爬虫的基础上实现。
  - 数据解析
- 增量式爬虫：用来监测网站数据更新的情况。以便于爬取最新更新出来的数据！
爬虫合法性探究：
- 爬虫的风险体现：
  - 爬虫干扰了被访问网站的正常运营；
  - 爬虫抓取了受到法律保护的特定类型的数据或信息。
- 如何规避风险：
  - 严格遵守网站设置的robots协议；
  - 在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行；
  - 在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除。
反爬机制
- robots协议：存在于服务器端的一个纯文本的协议。
  - User-Agent:就是请求载体的身份标识。
  - 特点：防君子不放小人
反反爬策略
http的头信息
- User-Agent
- Connection：‘close’
- content-type

猜你喜欢

转载自www.cnblogs.com/zhufanyu/p/11972795.html

爬虫类型

网络爬虫之爬虫类库

php多线程爬虫类

php单线程爬虫类

Scrapy 学习笔记 - 爬虫类 Spider

爬虫类与界面的交互

网络爬虫类型分类

初始爬虫

爬虫初始

网络爬虫的组成和爬虫类型

4.5. scrapy两大爬虫类_Spider

编写一个爬虫类库——（一）想法

[ Python ] 爬虫类库学习之 re 正则解析

[ Python ] 爬虫类库学习之 xpath

[ Python ] 爬虫类库学习之 requests

[ Python ] 爬虫类库学习之 bs4

python爬虫：初始爬虫一

初始爬虫(二)

初始网络爬虫

百度爬虫类型（Baiduspider)及robots设置方法

爬虫 --- 06. scrapy框架初始

爬虫的初始和requests模块基础用法

金融数据分析（三）当当网店铺商品爬虫——爬虫类书籍为例：requests&bs4

python 爬虫(二) 使用scrapy初始化一个爬虫

【Android 逆向】程序员高危开发方向 ( 违法软件类型 | 赌博游戏 | 色情类应用 | 涉及金融类软件 | 爬虫类软件 | 区块链货币 | 甄别是否合法 )

初始

Python 爬虫开发杂记之（三）Pycharm初始----编辑脚本和运行

爬虫

爬虫-

爬虫。

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)