版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
前言:
由于做计算机视觉需要用到一批图形数据,12306验证码又是出了名的
所以决定写一个定时爬虫下载一批数据
爬虫呢,有很多方案,request发请求,一种是解析请求返回值,第二种是解析读取页面元素
scrapy框架只是更加完善,归根结底还是这两种思想
第一步:
先给大家看下12306的请求连接和响应参数
第二步:
本想着根据上面的图片的返回值,和图片的访问链接做比对
我想着能够直接获取到图片的访问地址,然而没想到
第三步:
比对两者链接,链接太长了,昨天在线比对的时候,网站都无响应了几次,今天早上才可以
第四步:
通过比对发现,12306的图片,经过了处理的,他妹的(小声比比)
第五步:
先分析下请求连接地址,看一下哪些地址是动态的,这也是爬虫的基本思路
查看源代码,从引入的js文件中查找的
(https://kyfw.12306.cn/otn/resources/js/login_new.js)
第六步:
查看验证码拼接代码
最后这是为啥呢?原因留给你们思考思考