Heritrix3.1.0的使用 - 代码天地

Heritrix3.1.0的使用

企业开发 2018-05-14 11:36:04 阅读次数: 6

1.在cmd下面进入Heritrix的bin目录下

输入heritrix -a admin:admin，弹出新窗口，新窗口中运行heritrix

2.浏览中输入https://localhost:8443/

得到界面如下

第一个输入框中写入任意Job名称，如s

第二个输入框如果不写则默认存储在bin目录下的jobs文件夹下

3.点击create后：

4.点击"s"任务：

crawler-beans.cxml是配置本次抓取网页的配置文件

5.点击edit：

修改配置文件中的内容，点击左上角的"save change"保存本次修改

第一个参数：可以填写你的ip（好像用了路由器的网络就不行了，不知是不是我弄错了？）

第二个参数：填写你的Job名称（和前面填写的一致）

第三个参数：填写描述

添加要爬取的网页

此处修改最后一个属性：把Version改为3.1.0，后面为你的联系方式（如果不填可能有的网站会拒绝被抓取）

返回job界面，build->launch->刷新->uppause，会看到Job的状态为Running

猜你喜欢

转载自jkhhuse.iteye.com/blog/1676622

Heritrix3.1.0的使用

Heritrix3.1.0RC1使用Cookie不能自动登录问题的一个解决办法

Heritrix使用的初步总结

heritrix下载，安装，使用

Heritrix使用入门

heritrix使用经验

Heritrix

Heritrix1.14.4 Web后台使用简介

[Unity]Mesh Baker3.1.0使用教程

使用SpringMVC+Spring Security3.1.0

JDK20 + SpringBoot 3.1.0 + JdbcTemplate 使用

Heritrix3.0教程使用入门(二) 开始抓取

Heritrix简介

Heritrix maven

protobuf 3.1.0 安装示例和使用指南说明

Win10安装使用Hadoop3.1.0

使用opencv3.1.0读入序列图像或者视频

vant3.1.0 地区选择器使用area

Heritrix3.0教程使用入门(三) 配置文件crawler-beans.cxml介绍

Heritrix源码分析(七) Heritrix总体介绍

Heritrix学习及部署（三）

heritrix 3.2.0 -- 环境搭建

Heritrix学习及部署（二）

Heritrix学习及部署（一）

Heritrix 3.1.2搭建

Heritrix 抓取高级篇

Eclipse 配置 Heritrix 1.14.4

Heritrix配置及扩展

heritrix 3.2.0 下载

heritrix queue 分配策略

今日推荐

周排行

8种防盗链的方法

php的序列化和反序列化

Java 8：CompletableFuture

Android版本差异适配方案(5.0-9.0)

makedownpad使用

Spring Boot 使用AOP切面实现后台日志管理模块

实战SSM_O2O商铺_44【DES加密】关键配置信息进行DES加密

ACM排行榜说明

【转】SQL重复记录查询

板球和秃子威力那个大

每日归档

更多

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)

2024-09-07(0)

2024-09-06(0)