Heritrix对中文支持不够,比如URL中有中文的URL肯定抽取不到,但这个改动部分代码页就是它的正则表达式即可
解决方法
修改org.archive.crawler.extractor.ExtractorJS类
把
static final String STRING_URI_DETECTOR = "(?: \\w|[\\.]{0,2}/)[\\S&&[^<>]]*(?:\\.|/)[\\S&&[^<>]]*(?:\\w|/)";
改为
static final String STRING_URI_DETECTOR = "(?: \\w|[\\.]{0,2}/)[\\S&&[^<>]]*(?:\\.|/)[\\S&&[^<>]]*(?:\\S|/)";
heritrix无法抓取中文URL的问题解决方案
猜你喜欢
转载自wangwei3.iteye.com/blog/662969
今日推荐
周排行