版权声明:禁止转载至其它平台,转载至博客需带上此文链接。 https://blog.csdn.net/qq_41841569/article/details/88893865
**注:**这是一个在未登录的情况下,根据企业名称搜索,爬取企业页面数据的采集程序,是一个比较简单的爬虫,基本上只用到了代理,没有用到其他的反反爬技术,不过由于爬取的数据比较多, 适合刷解析技能的熟练度 。
当然在学习Python的道路上肯定会困难,没有好的学习资料,怎么去学习呢? 学习Python中有不明白推荐加入交流群号:683380553 群里有志同道合的小伙伴,互帮互助, 群里有不错的视频学习教程和PDF!
python版本:python2.7
编码工具:pycharm
数据存储:mysql
爬虫结构:广度爬虫
爬虫思路如下:
1.先获取需要采集信息的公司
2.从数据库中获取
3.获取字段:etid,etname
4.将获取的数据存储的状态表中
5.从状态表中获取数据,并更新状态表
6.拼接初始URL:
7.将etname和初始url进行拼接,获得初始网址
8.将初始url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
9.请求解析初始一级页面
10.验证查询的公司是否正确
11.获取二级页面url
12.将二级url放到一个列表中,获取HTML的时候如何出错,将出错的url放到另一个列表中,进行循环获取
13.请求解析二级页面:
14.获取的信息待定
15.将公司的信息存储到数据库中:
16.建表
17.存储信息
所建的表:
- 企业主要信息: et_host_info
- 工商信息: et_busi_info
- 分支机构信息: et_branch_office
- 软件著作权信息: et_container_copyright_info
- 网站备案信息: et_conrainer_icp_info
- 对外投资信息: et_foreign_investment_info
- 融资信息: et_rongzi_info
- 股东信息: et_stareholder_info
- 商标信息: et_trademark_info
- 微信公众号信息:et_wechat_list_info
- 状态表: et_name_status
看一下部分的结果图: