常见的反扒机制及解决办法

常见的反扒机制及解决办法

总结了工作中遇到的反爬机制及解决办法或思路,便于日后用到

1、User-Agent,客户端版本信息
2、request, Method方式不同,常见GET、POST
+ post,有下面这种色儿的:
  formData = {
      '__EVENTVALIDATION': eventAliation,
      '__VIEWSTATE': viewState,
      '__EVENTTARGET': eventTaget,
      # 'pageIndex': int(pageIndex) + 1,
  }
3、cookie限制
4、访问频率,延时访问
5、IP,IP代理
6、在html中动手脚,jquery
+ 加一些无意义的字符
+ 使用lxml解, 正则过滤 或 其他筛选方法
+ 源码查看目标信息,根据实际规则 过滤出 自己的目标信息
+ 
7、Ajax动态加载 具体信息在json 中
+ 直接json.loads(html.text) 加载、解析,简单
8、美团系,数字、文字woff字体加密
+ 找到目标woff文件,加载出字体库的内容,用QQ截图、识图,识别文字
+ 加载 `from fontTools.ttLib import TTFont`,构造字典,
+ 在获取网页内容后,理解替换掉加密部分,
+ 再xpath解析 或 其他方式解析
+ 
+ 听说有每个子页面都是使用新的woff字体库,这种比较变态的反爬,还未遇到,遇到的时候再说。。。。
++




遇到反爬,但未解决的记录

1、大众点评获取店铺联系电话,需要登录,session 被封,无法请求到目标网页,这个是不是只有多账号才能解决?
2、58 查询企业招聘信息,使用代理IP无法请求到内容,,,,这个或许是代理IP池不够大,后续优化一下再看看
3、58 手势验证码。。。这个是因为没时间搞,,,后面看看什么情况。。。。
4、滑块破解,一般有背景图片和缺口图片做对比
+ 但是 58 的就只有带缺口的图片,这就给定位缺口位置带来了麻烦,之前都是使用像素对比,现在咋弄???
ds
5、搜狗平台验证码图片无法使用ocr解析??是不是图片太小了???待学习中,,,,,
sad




有名的反爬机制,还没遇到的记录

蜜罐技术
发布了85 篇原创文章 · 获赞 27 · 访问量 16万+

猜你喜欢

转载自blog.csdn.net/qq_22038327/article/details/104003158