heritrix3.1 TLD list unavailable

今天按照上面转载的文档搭建了一下heritirx3.1的环境,基本上还是成功的,可以成功的运行,但是在运行的时候报了一个错误,错误如下:

 

严重: TLD list unavailable

java.lang.NullPointerException

at java.io.Reader.<init>(Reader.java:61)

at java.io.InputStreamReader.<init>(InputStreamReader.java:55)

at org.archive.util.ArchiveUtils.<clinit>(ArchiveUtils.java:874)

at org.archive.crawler.Heritrix.instanceMain(Heritrix.java:380)

at org.archive.crawler.Heritrix.main(Heritrix.java:189)

Heritrix version: UNKNOWN

无法显示版本号,这个问题暂时还没有找到是什么引起的,运行界面是可以正常运行的!

 

由于本人还算是个相对的完美主义者,对于上面的错误,心里还是觉得很难受的!!别扭!

于是刚才花了几分钟看了下源代码,是heritrix在启动的时候会到org.archive.util下面读取3个配置文件,分别是:

version.txt

timestamp.txt

tlds-alpha-by-domain.txt

 

这三个文件在src的zip包里面并不存在,但是可以在dist.zip的lib目录下,找到heritrix-commons-3.1.0.jar这个文件,

在里面的org.archive.util下面找到上面的3个txt文件,拷贝到你的项目的src\org\archive\util下面,在重新运行,问题完美解决!!

猜你喜欢

转载自pencil1218.iteye.com/blog/1738213
tld