heritrix 判断去重 在 package org.archive.crawler.util;下面的BdbUriUniqFilter 的setadd方法
其实heritrix的抓取过的URL都保存在BDB中
然后通过boolean来判断是否加入到队列
Heritrix去重
猜你喜欢
转载自wangwei3.iteye.com/blog/691215
今日推荐
周排行