爬虫初始

爬虫

  • 什么是爬虫
    • 就是通过编写程序模拟浏览器上网,让其去互联网中抓取数据的过程。
  • 爬虫的分类:
    • 通用爬虫:爬取一整张页面源码数据。
    • 聚焦爬虫:爬取页面中局部的数据。一定是在通用爬虫的基础上实现。
      • 数据解析
    • 增量式爬虫:用来监测网站数据更新的情况。以便于爬取最新更新出来的数据!
  • 爬虫合法性探究:
    • 爬虫的风险体现:
      • 爬虫干扰了被访问网站的正常运营;
      • 爬虫抓取了受到法律保护的特定类型的数据或信息。
    • 如何规避风险:
      • 严格遵守网站设置的robots协议;
      • 在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
      • 在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。
  • 反爬机制
    • robots协议:存在于服务器端的一个纯文本的协议。
      • User-Agent:就是请求载体的身份标识。
      • 特点:防君子不放小人
  • 反反爬策略
  • http的头信息
    • User-Agent
    • Connection:‘close’
    • content-type

猜你喜欢

转载自www.cnblogs.com/zhufanyu/p/11972795.html