版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/dreamzuora/article/details/88989527
之前做了一个频道抓取:获取div
Elements div_e;
div_e = doc.select("div");
Iterator<Element> div_it = div_e.iterator();
while (div_it.hasNext()) {
处理逻辑
}
我是想通过select div块然后去遍历获取div里的内容,但是发现有的新闻网址频道抽取不了,发现它的div是嵌套在body或者是其它标签当中。
如:
常见情况:
- div1
- div2
- ul
- a
- ul
- div2
这种可以获取到a标签里面的内容
- div1
- body
- ul
- a
- div2
- ul
- body
这种情况找不到a标签里的内容