Python爬虫--我采用深度分页+企业分词词库技术--爬下天眼查全部数据

Python爬虫--我采用天眼查分页深度爬虫技术--爬下全部数据

自己开发了一套天眼查分布式深度爬虫系统,爬取天眼查所有的完整数据,并且把数据存储到数据库,最近有很多做爬虫的技术朋友找到我,问如何把天眼查的数据全部爬完?

如何快速把天眼查、企查查、启信宝、这些企业信息数据全部爬完,是目前很多爬虫技术面临的难题,也是90%技术解决不了的问题,因为在爬天眼查的时候,将会遇到这样的问题:

1 、如何爬5页后面,更多的数据?

天眼查在年前是可以免费看的10页的数据,一页的数据是20条,也就是免费可爬到200条数据,就在刚刚不就几天现在天眼查规则变了,目前只能看的前5页面的数据,当你在浏览器点开第六页的时候,是弹出需要会员登录的。这个时候导致后面的全部拿不到,爬不完!导致90%的爬虫技术都面临爬不完整天眼查的数据,其实要解决这个问题很简单,我现在自己开发的这套天眼查分布式爬虫系统是这样解决的,首先我做了企业词库,比如您想把“上海科技行业”这个关键词全部的数据爬下来,那么至少是几百万的数据,按正常我们把“上海科技行业”这个词直接去搜索最多也就拿到5页的数据,也就100条数据,这样肯定是不行的,这个就需要吧这个关键词进行采用企业分词技术 做深度分词来解决这个问题,只要我们的分词做得月越精确 那么数据就越完整!这样保证100%可以拿到所有的数据!

(需要深度爬虫技术和大数据交流朋友加我qq:2779571288)

2、 用会员账号采集天眼查是最大的错误

      很多技术或者用户说需要用会员账号才能采集更多的天眼查数据,其实这个做法是最大的错误,因为一但您用会员登录然后又去采集数据的时候,等于暴露了自己的身份,相当高于告诉天眼查你是谁了,那么只要你这个登录的账号被监控采集太频繁,直接被封号,您想想一个账号采集几百条就被封号,您需要几百万的账号去采集呢? 一个账号是几百元的vip费用,那么采集完几千万的数据 需要几个亿的成本呢?所以绝对不要用破解验证码和模拟登录去采集天眼查,否则是自己杀了自己!那么怎么做呢,其实很简单,就是用深度企业分词技术解决这个批量完整数据采集的问题!我自己爬取天眼查数据--附分布式多线程源代码,爬取天眼查所有的完整数据,并且把数据存储到数据库,再用php一个后台管理系统,可以把这些数据管理起来,可以实现数据按地区搜索、导出excel、可以按公司名称搜索,当时想到是天眼查数据量那么大,而且那么多模块的数据,整个网站有主要核心数据有以下19大模块1基本信息2法人代表、3主要成员、4股东&出资、5变更记录、6公司年报、7司法风险、8舆情事件、9岗位招聘、10商品信息11网站备案12商标数据13专利数据,14 作品著作权软件著作权、对外投资关系、税务评级、行政处罚、进出口信用、企业评级信用等十九个维度的企业数据,如果把这些数据爬下来,并且结构化,可以查询可以检索使用,可以导出到excel,可以生成企业报告,就是采集了这个架构解决天眼查的封爬问题的。

 3 采集速度太频繁了,会被封IP问题 怎么解决

当我们发出去的http请求到天眼查网站的时候,正常情况下返回200状态,说明请求合法被接受,而且会看到返回的数据,但是天眼查有自己的一套反爬机制算法,如果检查到同一个IP来不断的采集他网站的数据,那么他会被这个IP列入异常黑名单,您再去采集它网站数据的时候,那么就永远被拦截了。怎么解决这个问题呢,其实很简单,没有错用代理IP去访问,每一次请求的时候都采用代理IP方式去请求,而且这个代理IP是随机变动的,每次请求都不同,所以用这个代理IP技术解决了被封的问题。

(需要深度爬虫技术和大数据交流朋友加我qq:2779571288)


猜你喜欢

转载自blog.csdn.net/liujainq/article/details/80183763