问题背景

有个童鞋在百姓网挖坑中，累啊。

他的老大告诉他，那谁谁需要58/赶集的数据。他当时的第一反应是找个黑帽去脱库…擦嘞。

老大面对他：“嗯哼，赶集的，你上吧！有问题找xx协助一下。”

他就只能“哦”了一下…..

挖坑结束，下面填坑。

这个系列的价值

他是这样想的：把这个当故事看会好点。但是，文笔不行，挖坑不造…这是个会点lol的六年级小学渣的随笔。

但是，这个东西是存在的，你看或不看，它都在这，不删不改。

对不同的人，这个东西有不同的价值。小编期待大家的评论与指教。

第一篇：就是你看到的喽。那个童鞋是在有组织有计划地危害赶集网。He is very sorry !

第二篇：爬虫项目的架构大同小异。这篇将会从Scrapy框架的角度去分析相应的模块，同时给出一个简单的串行结构。大的爬虫项目应提前设计的更容易应对需求变更。别问我是怎么知道的。

第三篇：介绍爬虫的技术栈—selenium，xpath, mongo等。同时给出一些相应的经验。具体的实现原理，还是推荐去读官方文档，该篇不涉及原理。

第四篇：介绍爬虫的操作案例—-赶集爬虫。主要是针对招聘信息类目的爬取。会有360个城市，484个职业类目，上百万条数据集的爬取场景。

第五篇：介绍赶集的反爬策略，描述得出反爬策略的流程，最后提高自己的爬虫程序的效率。

与这个世界分享自己的价值，是我的想法。在追求人性本质的过程中，希望得到更多的体验。我想我知道我在做什么。但是，从不能对人说，我是谁，从哪来，到哪去…

没有尽头，是因为生命的种子本身就包含死亡。历史总是惊人的相似，世事也总是大同小异。

欢迎大家关注我的微信公众号“谷震平的专栏”，获取更多技术分享资料！
打开微信，扫一扫吧！
谷震平微信公众号