用htmlparser提取table信息 - 代码天地

用htmlparser提取table信息

企业开发 2018-05-14 21:30:31 阅读次数: 2

htmlparser1.6
提取tr似乎有些问题，直接用css selector提取的tr冗余，tr里面还有tr。
所以这里多做了些处理。请看代码。

  public static Map<String,String> parseList(String url) {
    Map<String,String> rlt=new LinkedHashMap<String,String>();
    NodeFilter filter=new CssSelectorNodeFilter (".className tr");
    filter = new AndFilter(filter, new NotFilter(new HasChildFilter(new CssSelectorNodeFilter ("tr"))));
    Parser parser;
    try {
      parser = new Parser(url);
      NodeList list = parser.extractAllNodesThatMatch(filter);
      for(int i=0;i<list.size();i++){
        Node tr=list.elementAt(i);
        parser = new Parser(tr.toHtml());
        NodeList tds = parser.extractAllNodesThatMatch(new CssSelectorNodeFilter ("td"));
        String key=tds.elementAt(0).toPlainTextString();
        String value=tds.elementAt(1).toPlainTextString();
        rlt.put(key, value);
      }
    } catch (ParserException e) {
      e.printStackTrace();
    }
    return rlt;
  }

考虑一下

猜你喜欢

转载自bg090721.iteye.com/blog/1525891

用htmlparser提取table信息

HtmlParser提取网页中的纯文本信息

用htmlparser分析并抽取正文

htmlparser使用经验总结，与网页提取

使用HtmlParser提取HTML文本块

htmlparser

用HtmlParser 写个简单的 news爬虫(转)

用HtmlParser 写个简单的 news爬虫

HTMLParser 解析html字符串，提取纯文本

爬虫实战：基于 HtmlParser 实现网页链接的提取

利用htmlparser爬虫获取指定完整的完整区域信息

用htmlparser解析，怎么拿不到子标签的理想对象？

Java:用HtmlParser抓取新浪博客文章内容

Python网络爬虫与信息提取（7）—— 用re库爬取淘宝商品信息

处理5000多个html，并提取当中有用的用户信息

根据ETL报错的信息，用Python从源文件中提取出错误的内容

数学建模_巧用Excel的分列处理文本数据，提取有用信息

【爬虫基础】java用正则表达式处提取网页信息

信息组织与提取

Excel信息提取

提取文件或目录信息

提取Flash芯片信息

python提取GO信息

HTMLParser使用

HTMLParser 笔记

python HTMLparser

【Python入门】32.常用内置模块之 HTMLParser & 抓取网页信息

table表格信息

SQLite查询table信息

mysql 提取 schema,table,column names

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)