Heritrix去重

heritrix 判断去重 在 package org.archive.crawler.util;下面的BdbUriUniqFilter  的setadd方法


其实heritrix的抓取过的URL都保存在BDB中

然后通过boolean来判断是否加入到队列

猜你喜欢

转载自wangwei3.iteye.com/blog/691215