NUTCH的安装与测试

其他 2018-06-19 05:15:52 阅读次数: 2

1．Nutch简介

Apache Nutch is ahighly extensible and scalable open source web crawler softwareproject—wikipedia。

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch的组成：爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引，所以除去索引部分，两者之间的耦合度很低。Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上，例如将Crawler和Searcher分别放在两个主机上，这样可以提升性能。

2.Nutch安装

2.1安装虚拟机与Ubuntu（略）

2.2安装JDK与配置环境

(1) sudo apt-get update

(2) sudo apt-getinstall default-jdk

(3)配置环境变量： sudo gedit ~/.bashrc

进入编辑框，在文件的末尾添加四行代码：

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

（4）输入完成后，点击右上角保存，然后关闭

执行命令：

source ~/.bashrc

（5）验证环境配置结果，出现下图结果，表示配置成功

（6）注意：不可以省略编辑bashrc这一步，如果省略掉，会影响后面的程序运行。

2.3Nutch的下载/编译/配置

（1）下载：首先安装svn工具，然后通过svn下载代码，本文采用nuthc的版本为1.7。下载完成后，如图所示。

sudo apt install subversion

svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.7

（2）编译：

修改文件：build.xml

找到这一块，加入这一行

<classpath><fileset dir="lib/" includes="sonar*.jar" /></classpath>

然后将一个jar包加入lib文件夹中

编译需要Ant,所以首先要安装Ant。输入ant开始编译

sudo apt install ant

cd release-1.7

ant

编译过程可能会出现问题：

大概是源中有的包缺失了，可以选择修改源。即更改value后面的网址就行了。

不过这种办法试过之后可能依然不行，那么问题的关键来了。你需要换个网络。这和我软微的网络有的时候没法访问百度文库是一样的。本人在尝试过程中，断掉了无线网，用手机开了热点，一次就编译成功了。

（3）配置：主要配置conf文件夹下的这两个文件

nutch-site.xml 在value标签内填入任意字符即可

nutch-default.xml

2.4抓取网页

1. 进入runtime->local目录

命令： cd runtime/local

2. 建一个目录保存需要抓取的URL信息

mkdir urls

vi urls/url.txt

将需要抓取的URL写入url.txt中：

3. 使用Crawl命令抓取网页

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100 &

runtime/local文件夹下的nohup.out存储爬取结果

猜你喜欢

转载自blog.csdn.net/kangyucheng/article/details/79643936

NUTCH的安装与测试

nutch和solr安装

Nutch 1.5 安装与使用

nutch 安装配置运行

Nutch1.1的安装与运行

nutch

nutch 安装部署以nutch2.3.1 为例

Nutch相关框架安装使用最佳指南

linux nutch1.0安装配置

nutch入门之本地安装运行

nutch安装配置 tomcat6.0+nutch1.2安装配置（原创）

Cygwin的安装－－Nutch搜索引擎环境

在UBUNTU安装NUTCH(十个简单的步骤)

nutch笔记

书虫--Nutch

Nutch原理

nutch使用

nutch杂记

nutch SolrDeleteDuplicates

nutch入门

Nutch简介

nutch编译

nutch nutch-site.xml

大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置（上集）

大数据——hadoop1.2.1+hbase0.94.11+nutch2.2.1+elasticsearch0.90.5安装配置攻略（中集）

centos7下安装配置nutch2.2+mysql

nutch 1.8 nutch 2.2.1 与 hadoop 2.2.0

jdk1.7 + ant1.9 + tomcat7 + nutch2.3 + solr5.3 + mysql5.6安装

Nutch爬虫环境搭建

Nutch中MapReduce的分析

今日推荐

零基础入门鸿蒙开发 HarmonyOS NEXT星河版开发学习

豆包MarsCode帮我2小时完成Go语言系统从开发、测试到部署全流程最佳实践，云IDE迁移PHP企业级项目最佳实践

内幕！smardaten无代码平台全方位测评，这些细节你绝对想不到！

idea安装及激活配置流程---2024旗舰版(需激活码)

Elastic 创始人：热爱开源，希望合作 OSI 创建新许可证

工业互联网标识解析体系开放开源下载服务中心发布

IDEA取消自动选择光标所在行

828华为云征文 | 使用Flexus X实例搭建Dubbo-Admin服务

Programmer&AI—AI辅助编程学习指南

【Linux】虚拟机安装 openEuler 24.03 X86_64

o1 发布后 Sam Altman 最新访谈：AI 发展不仅没有放缓，而且我们对未来几年已经胜券在握

AI芯片国产化率100%！运营商最大单集群智算中心投产

周排行

【后端】 Spring Cloud 服务间调用

Git 学习教程

Salesforce集成(三). 获取数据02_获取Object和Field信息

Oracle执行计划的稳定（使用MANUAL类型的SQL PROFILE）

js跨域请求之jsonp原理和运用

ios -解决view遮挡按钮问题

【PAT天梯赛】L2-003 月饼（25 分)（贪心思想）

hive 存储格式的生产应用

【Python实践-6】将不规范的英文名字，变为首字母大写，其他小写的规范名字

容器学习点点滴滴（二）

每日归档

更多

2024-10-03(2)

2024-10-02(60)

2024-10-01(0)

2024-09-30(0)

2024-09-29(0)

2024-09-28(4)

2024-09-27(60)

2024-09-26(0)

2024-09-25(0)

2024-09-24(0)