Python爬取js动态添加的内容 - 代码天地

Python爬取js动态添加的内容

其他 2019-02-13 09:24:44 阅读次数: 0


爬虫从 HTML 数据中提取出有效的信息。但是如果网页中含有 JavaScript 代码，网页会经过渲染处理。此时，如果我们仍采用常规方法从中抓取数据，那么我们将一无所获。那么，通过Web kit可以简单解决这个问题。Web kit 可以实现浏览器所能处理的任何事情。对于某些浏览器来说，Web kit就是其底层的网页渲染工具。Web kit是QT库的一部分，在安装QT和PyQT4库后，你可以直接运行下列代码。
windows下可以下载对应的包，cmd进入对应目录进行pip install;
linux下运行：sudo apt-get install python-qt4
https://www.lfd.uci.edu/~gohlke/pythonlibs/#pyqt4

import sys
from PyQt4.QtWebKit import * from PyQt4.QtGui import * from PyQt4.QtCore import * class Render(QWebPage): # 用来渲染网页,将url中的所有信息加载下来并存到一个新的框架中 def __init__(self, url): self.app = QApplication(sys.argv) QWebPage.__init__(self) self.loadFinished.connect(self._loadFinished) self.mainFrame().load(QUrl(url)) self.app.exec_() def _loadFinished(self, result): self.frame = self.mainFrame() self.app.quit() url = 'http://ddbank.net/edu/mod/resource/view.php?id=707' r = Render(url) html = r.frame.toHtml() print(html)

猜你喜欢

转载自www.cnblogs.com/dreamyheart/p/10368031.html

Python爬取js动态添加的内容

Python 爬取网页中JavaScript动态添加的内容

Python 爬取网页中JavaScript动态添加的内容（一）

Python 爬取网页中JavaScript动态添加的内容（二）

python爬取动态网页的内容

Python爬虫实战入门五：获取JS动态内容—爬取今日头条

python中如何爬取动态页面内容

Python爬取网页Flex渲染的动态内容

Python爬取javascript(js)动态网页

Python爬虫爬取动态JS网页股票信息

python爬取elasticsearch内容

Python爬取网页内容

爬取动态网站表格内容

python动态爬取网页

爬虫 selenium+Xpath 爬取动态js页面元素内容

PHP 爬虫体验（三） - 使用PHP + puppeteer爬取js动态渲染的页面内容

Python爬取大型网站JS动态，想要的“资源”都能爬

Python - Python 简单爬取网页内容

爬取JS动态生成的URL

python爬取动态网页2，从JavaScript文件读取内容

Python3网络爬虫：requests爬取动态网页内容

Python 使用selenium+webdriver爬取动态网页内容

python网络爬虫指南二：多线程网络爬虫、动态内容爬取（待续）

python爬虫（三）爬取js动态页面之b站粉丝数观看数点赞数爬取

python爬取网站内容

Python 爬取网页内容，转成PDF

python爬取网页内容demo

Python爬虫爬取新浪新闻内容

Python之简单爬取网页内容

python：爬取新浪新闻的内容

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)