版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/guzhenping/article/details/52067254
问题背景
有个童鞋在百姓网挖坑中,累啊。
他的老大告诉他,那谁谁需要58/赶集的数据。他当时的第一反应是找个黑帽去脱库…擦嘞。
老大面对他:“嗯哼,赶集的,你上吧!有问题找xx协助一下。”
他就只能“哦”了一下…..
挖坑结束,下面填坑。
这个系列的价值
他是这样想的:把这个当故事看会好点。但是,文笔不行,挖坑不造…这是个会点lol的六年级小学渣的随笔。
但是,这个东西是存在的,你看或不看,它都在这,不删不改。
对不同的人,这个东西有不同的价值。小编期待大家的评论与指教。
文章架构
第一篇: 就是你看到的喽。那个童鞋是在有组织有计划地危害赶集网。He is very sorry !
第二篇:爬虫项目的架构大同小异。这篇将会从Scrapy框架的角度去分析相应的模块,同时给出一个简单的串行结构。大的爬虫项目应提前设计的更容易应对需求变更。别问我是怎么知道的。
第三篇:介绍爬虫的技术栈—selenium,xpath, mongo等。同时给出一些相应的经验。具体的实现原理,还是推荐去读官方文档,该篇不涉及原理。
第四篇:介绍爬虫的操作案例—-赶集爬虫。主要是针对招聘信息类目的爬取。会有360个城市,484个职业类目,上百万条数据集的爬取场景。
第五篇:介绍赶集的反爬策略,描述得出反爬策略的流程,最后提高自己的爬虫程序的效率。
结语
与这个世界分享自己的价值,是我的想法。在追求人性本质的过程中,希望得到更多的体验。我想我知道我在做什么。但是,从不能对人说,我是谁,从哪来,到哪去…
没有尽头,是因为生命的种子本身就包含死亡。历史总是惊人的相似,世事也总是大同小异。
欢迎大家关注我的微信公众号“谷震平的专栏”,获取更多技术分享资料!
打开微信,扫一扫吧!