Sina微博模拟登录获取Cookies

转自:http://blog.sina.com.cn/s/blog_53e1aa480101fj66.html

1.在登录之前我们需要先从新浪服务器获取两个变量:servertime,nonce。其中servertime中新浪的服务器时间,nonce是一个随机生成的字符串。获取的需要通过这样一个网络接口:http://login.sina.com.cn/sso/prelogin.php?entry=miniblog&callback=sinaSSOController.preloginCallBack&user=”+ base64_username +”&client=ssologin.js(v1.3.16)
其中base64_username是 Encoding Base64

2.获取到我们需要的内容后,接下来就是加密的过程了。加密使用的是通用的SHA1加密算法:
把密码进行一次SHA1加密,结果再进行一次SHA1加密
把经过两次SHA1加密的结果附上servertime,nonce再进行一次SHA1加密
加密的结果作为登录密码

登录地址:http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.3.16)

需要Post的参数比较多;如下
entry=weibo
gateway=1
from=
savestate=7
useticket=1
ssosimplelogin=1
su=user // base 64之后的用户名
service=miniblog
servertime=servertime //上步得到的服务器时间
nonce=nonce //上步得到随机生成的字符串
pwencode=wsse
sp=enPassword //加密的密码
encoding=utf-8
url=”+ HttpUtility.UrlEncode(“http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack”)
returntype=META

请求使用POST方式,到这还没有登录成功,另外保存这时的Cookie是没用的,不能成功登录。
提交完成之后,服务器会传回一个响应,这个响应中给出了你登录服务器的票据,如果登录失败则不会出现。
成功的响应

正在登录 …

try{sinaSSOController.setCrossDomainUrlList({“retcode”:0,”arrURL”:["http:\/\/kandian.com\/logon\/do_crossdomain.php?action=login&savestate=1319597532"]});}catch(e){}try{sinaSSOController.crossDomainAction(‘login’,function(){location.replace(‘http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack&ssosavestate=1319597532&ticket=ST-MTY4MjM3Mjc5Mw==-1318992732-xd-1FA01DEAC236E647AEE84E6015311BFB&retcode=0′);});}catch(e){}

失败的响应:如密码错误等

location.replace(“http://weibo.com/ajaxlogin.php?framelogin=1&callback=parent.sinaSSOController.feedBackUrlCallBack&retcode=101&reason=��¼����������″);

通过观察可以发现retcode是判断登录成功与失败的标识码。

3.登录成功后,在body中的replace信息中的url就是我们下一步要使用的url。
然后对上面的url使用GET方法来向服务器发请求,保存这次请求的Cookie信息,就是我们需要的登录Cookie了。

 

另一个人的经验:http://www.douban.com/note/264976536/

 

之前写过一篇 模拟登录新浪微博,是采用POST 用户名/密码等参数(经过加密)并保存Cookie来模拟登录的方法。
一般情况下,为了保证安全性,网站会定期更新登录的detail,例如修改参数名、更新加密(散列)算法等。所以模拟登录的代码定期肯定会失效,但是如果网站没有进行大的更新的话,稍微改一改还是能用的。另外,碰到验证码的情况就更难办了,虽然程序可以一定程度地识别验证码字符,但目前很难找到简单的可以通用的验证码识别程序。
很多豆友反馈有模拟登录新浪微博抓取数据的需求,其实对于一般的微博数据获取,如用户信息、微博内容等,使用微博开放平台API是更明智的选择:速度更快,而且节省许多网页处理的功夫。对于API没有开放的数据,我们再采用模拟登录的方法。

熟悉Web的朋友只要定期维护模拟登录的代码就可以一直成功登录微博。如果不那么熟悉的话,其实可以采用更naive的思路来解决:直接将Cookie发送给新浪微博以实现模拟登录。
1,获取Cookie
很简单,使用Chrome浏览器的”开发者工具(Developer Tools)“或者Firefox的"HTTPFOX"等插件就可以直接查看自己新浪微博的Cookie。(注: 这个私人Cookie千万不要泄露哦!)
2, 将Cookie作为访问微博的header参数提交
headers = {'cookie': 'your cookie'}
req = urllib2.Request(url, headers=headers) #每次访问页面都要提交headers
r = urllib2.urlopen(req)
具体代码见: http://whoop.sinaapp.com/download/weibo-login/

猜你喜欢

转载自blog.csdn.net/Together_CZ/article/details/72772586