Python爬虫--我采用深度分页+企业分词词库技术--爬下天眼查全部数据

Python爬虫--我采用天眼查分页深度爬虫技术--爬下全部数据

自己开发了一套天眼查分布式深度爬虫系统，爬取天眼查所有的完整数据，并且把数据存储到数据库，最近有很多做爬虫的技术朋友找到我，问如何把天眼查的数据全部爬完？

如何快速把天眼查、企查查、启信宝、这些企业信息数据全部爬完，是目前很多爬虫技术面临的难题，也是90%技术解决不了的问题，因为在爬天眼查的时候，将会遇到这样的问题：

1 、如何爬5页后面，更多的数据？

天眼查在年前是可以免费看的10页的数据，一页的数据是20条，也就是免费可爬到200条数据，就在刚刚不就几天现在天眼查规则变了，目前只能看的前5页面的数据，当你在浏览器点开第六页的时候，是弹出需要会员登录的。这个时候导致后面的全部拿不到，爬不完！导致90%的爬虫技术都面临爬不完整天眼查的数据，其实要解决这个问题很简单，我现在自己开发的这套天眼查分布式爬虫系统是这样解决的，首先我做了企业词库，比如您想把“上海科技行业”这个关键词全部的数据爬下来，那么至少是几百万的数据，按正常我们把“上海科技行业”这个词直接去搜索最多也就拿到5页的数据，也就100条数据，这样肯定是不行的，这个就需要吧这个关键词进行采用企业分词技术做深度分词来解决这个问题，只要我们的分词做得月越精确那么数据就越完整！这样保证100%可以拿到所有的数据！

（需要深度爬虫技术和大数据交流朋友加我qq：2779571288)

2、 用会员账号采集天眼查是最大的错误

很多技术或者用户说需要用会员账号才能采集更多的天眼查数据，其实这个做法是最大的错误，因为一但您用会员登录然后又去采集数据的时候，等于暴露了自己的身份，相当高于告诉天眼查你是谁了，那么只要你这个登录的账号被监控采集太频繁，直接被封号，您想想一个账号采集几百条就被封号，您需要几百万的账号去采集呢? 一个账号是几百元的vip费用，那么采集完几千万的数据需要几个亿的成本呢？所以绝对不要用破解验证码和模拟登录去采集天眼查，否则是自己杀了自己！那么怎么做呢，其实很简单，就是用深度企业分词技术解决这个批量完整数据采集的问题！我自己爬取天眼查数据--附分布式多线程源代码，爬取天眼查所有的完整数据，并且把数据存储到数据库，再用php一个后台管理系统，可以把这些数据管理起来，可以实现数据按地区搜索、导出excel、可以按公司名称搜索，当时想到是天眼查数据量那么大，而且那么多模块的数据，整个网站有主要核心数据有以下19大模块：1基本信息、2法人代表、3主要成员、4股东&出资、5变更记录、6公司年报、7司法风险、8舆情事件、9岗位招聘、10商品信息、11网站备案、12商标数据、13专利数据,、14 作品著作权软件著作权、对外投资关系、税务评级、行政处罚、进出口信用、企业评级信用等十九个维度的企业数据，如果把这些数据爬下来，并且结构化，可以查询可以检索使用，可以导出到excel，可以生成企业报告，就是采集了这个架构解决天眼查的封爬问题的。

3 采集速度太频繁了，会被封IP问题怎么解决

当我们发出去的http请求到天眼查网站的时候，正常情况下返回200状态，说明请求合法被接受，而且会看到返回的数据，但是天眼查有自己的一套反爬机制算法，如果检查到同一个IP来不断的采集他网站的数据，那么他会被这个IP列入异常黑名单，您再去采集它网站数据的时候，那么就永远被拦截了。怎么解决这个问题呢，其实很简单，没有错用代理IP去访问，每一次请求的时候都采用代理IP方式去请求，而且这个代理IP是随机变动的，每次请求都不同，所以用这个代理IP技术解决了被封的问题。

（需要深度爬虫技术和大数据交流朋友加我qq：2779571288)

Python爬虫--我采用深度分页+企业分词词库技术--爬下天眼查全部数据

猜你喜欢