为什么说是浏览器爬虫呢! 此方法适用于哪些场合呢!
因为此方法是完全利用js特性来做爬虫 适用于那些无验证码 ajax加载的
例如xx网站评论
HTML({
onreadystatechange:function(xhr){
var i=xhr.xhr.responseURL.indexOf("http://hotels.ctrip.com/Domestic/tool/AjaxHotelCommentList.aspx");
if(i!=-1)
{
console.log("评论分页内容",xhr.xhr.responseText);
}
}
})
我们hook了浏览器所有http通信 一般网站都会返回json一步解析 随心所欲,不过要保存到自己数据库和翻页要靠你自己动脑筋解决喽