Nutch 的初步配置可先参考这个link
http://peigang.iteye.com/blog/1682107
遇到几个在window上无法run的问题,在这里纪录一下
1. 按照杨尚川的视频9. 先对hadoop-1.0.3下载原码,然后修改thow exception变成LOG.Warn及autoreconf 的问题解决后。编译完成hadoop-1.0.3后,把它更新到ivy的reposity中。
2. 在运行parschecker中,遇到
Exception in thread "main" java.lang.RuntimeException: x-point org.apache.nutch.protocol.Protocol not found.
是因为在nutch-default.xml中没有指定正确的plugin.folder,所以无法找到plugin的类。这个可以在hadoop.log找到没有load plugin
3. 最后出现urlnormalizer-regex 这个类没找到。原因是因为java Build Path的source中没有把urlnormalizer-regex加进去。后把urlnormalizer-regex 下的java, test目录加进去。就一切正常的