heritrix无法抓取中文URL的问题解决方案 - 代码天地

heritrix无法抓取中文URL的问题解决方案

编程语言 2018-05-14 14:07:16 阅读次数: 2

Heritrix对中文支持不够,比如URL中有中文的URL肯定抽取不到,但这个改动部分代码页就是它的正则表达式即可

解决方法

修改org.archive.crawler.extractor.ExtractorJS类
把

static final String STRING_URI_DETECTOR = "(?: \\w|[\\.]{0,2}/)[\\S&&[^<>]]*(?:\\.|/)[\\S&&[^<>]]*(?:\\w|/)";

改为
static final String STRING_URI_DETECTOR = "(?: \\w|[\\.]{0,2}/)[\\S&&[^<>]]*(?:\\.|/)[\\S&&[^<>]]*(?:\\S|/)";

猜你喜欢

转载自wangwei3.iteye.com/blog/662969

heritrix无法抓取中文URL的问题解决方案

js 解析url中search时存在中文乱码问题解决方案

Windows下命令行Git无法显示中文问题解决方案

centos7 下pycharm无法输入中文问题解决方案

中文乱码问题解决方案

Redis中中文乱码的问题解决方案

Ubuntu中文乱码问题解决方案

docker tomcat 中文乱码问题解决方案

eclipse中文乱码问题解决方案

文件下载中文乱码问题解决方案

matplotlib中文乱码问题解决方案

PyCharm无法引用matplotlib的问题解决方案

monkeyrunner无法运行的问题解决方案总结

被驱逐的pod无法被回收问题解决方案

Opencores 无法点击submit的问题解决方案

selenium 页面超时后捕获异常也无法继续get(url)使用的问题解决方案

eclipse中文乱码问题解决方案以及一种无法解决乱码的情况

无法输入中文标点符号问题解决方案【亲测有效】

fiddler抓取的https请求数据乱码问题解决方案

ARCGIS问题解决方案

网站问题解决方案

Python问题解决方案

pip问题解决方案

乱码问题解决方案

线上问题解决方案

PCB问题解决方案

幂等问题解决方案

问题解决方案

【问题解决方案】Dev C++ 无法调试的问题与解决

URL 传+号到后台变空格问题解决方案

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)