- 在使用爬虫的时候,你是否遇到这样的困惑,要爬的网站(例如:https://news.qq.com)在浏览器上明明是可以看到源代码的,但是使用request或者script的爬取页面信息的时候只返回了页面的js代码,和html 头部标签,除此之外什么都没有。
- 这是因为好多页面都是用到了js渲染的。爬虫在运行的时候,并不会运行js.所以呀,咱们需要一个工具,返回该页面js渲染后的页面。这个工具就是Splash。
- Splash是一个javascript渲染服务。它是一个带有HTTP API的轻量级Web浏览器,使用Twisted和QT5在Python 3中实现。QT反应器用于使服务完全异步,允许通过QT主循环利用webkit并发。
- 这个工具真的牛呀,还支持各种的参数,是需要你传入要爬取页面url,就ok.其他参数可参考文档
- 请参考
https://www.cnblogs.com/zhangxinqi/p/9279014.html
这里资料很全
爬虫中使用Splash渲染js
猜你喜欢
转载自blog.csdn.net/weixin_42547619/article/details/89139806
今日推荐
周排行