htmlcleaner爬取页面报contains未定义 - 代码天地

htmlcleaner爬取页面报contains未定义

编程语言 2018-05-12 18:07:00 阅读次数: 0

htmlcleaner用xpath中查找node，若xpath调用contains函数会报：“org.htmlcleaner.XPatherException: Unknown function contains”。

htmlcleaner构建的Rootnode不能直接调用contains函数需要进行如下转换：

lazy val htmlCleaner = new HtmlCleaner
lazy val ISSNXPath = "//div[@class='bdy4']//b[contains(text(), '国际刊号')]"
def extract(path: String) = {
    val root = htmlCleaner.clean(new File(path))
    val doc = new DomSerializer(new CleanerProperties).createDOM(root)
    val xpath = javax.xml.xpath.XPathFactory.newInstance.newXPath
    val value = xpath.evaluate(ISSNXPath, doc, javax.xml.xpath.XPathConstants.NODE)
    println(value)
    val next = value.asInstanceOf[org.w3c.dom.Node].getNextSibling
    println(next.getTextContent)
}
如上scala code所示：将htmlCleaner创建的根节点转为标准w3c节点，构建标准w3c XPath，进行查询即可。

对非Node后text类型文本的获取，可通过getNextSibling获得。
来自： http://www.imilo.cn/findblog/28

猜你喜欢

转载自zhymin77.iteye.com/blog/1866199

htmlcleaner爬取页面报contains未定义

Confluence 管理未定义的页面

js 文件的函数报未定义，表单自动提交

setCharacterEncoding未定义

CKEDITOR 未定义

isinf未定义

未定义的行为

js未定义

webpack 未定义

.remove()未定义

未定义的引用

ajaxpro组件提示页面类未定义处理

vue.js未定义 - 已经获取到数据并渲染在页面上，但是警告未定义

Promise未定义坑

未定义行为

“StrutsUtils 未定义”错误

Python reduce未定义

assert 未定义的引用

结构体未定义

ie json未定义

对‘XOpenDisplay’未定义的引用

未定义数组索引

未定义“RunCommand”属性

typeinfo 未定义的引用

对dladdr未定义的引用

vue项目,ie11 浏览器报 Promise 未定义的错误

webpack打包vue项目ie浏览器下报promise 未定义

iview在IE报TypeError: 无法获取未定义或 null 引用的属性transfer

webpack+babel项目在IE下报Promise未定义错误引出的思考

react项目中解决IE浏览器下报Promise未定义的错误

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)