最近想开发个用于信息收集的小工具,在爬取网页时出现查看网页源代码和F12中内容不一致的问题,查资料了解一下。
查看网页源代码:就是别人服务器发送到浏览器的原封不动的代码,也是爬虫获得的代码。
F12:在源码中找不到的代码(元素),是在浏览器执行js时动态生成的,通过F12看到的就是浏览器处理过的最终的html代码。
解决办法:
1.直接从JavaScript中采集加载的数据,用json模块处理;
2.直接采集浏览器中已经加载好的数据,借助工具PhantomJS。
参考:https://www.cnblogs.com/yuantup/p/9761534.html