如何安装和使用webhttrack

为了全部爬取一个网站,首先想到的是使用wget,但是爬下来的网站有个问题,那就是在看的时候所有超链接没有发生变化,所以考虑着使用一种功能更为强大的工具来抓取网页。那么,搜一下就会发现webhttrack应该是用的非常多的一款工具。

  1. 安装
    安装过程非常简单,在ubuntu下使用下面的命令即可完成安装:
sudo apt-get install httrack webhttrack
  1. 运行
    直接在命令行中打开webhttrack,会提示“权限不够”的错误。

接下来使用sudo来执行,结果出现了“–no-sandbox”的错误。

原来这个问题是跟浏览器相关,因为我系统中默认的浏览器使用的是chrome,而且在运行chrome的时候,必须要使用“–no-sandbox”,所以,需要使用firefox浏览器来解决这个问题。

编辑/usr/bin/webhttrack,同时设置

BROWSEREXE="firefox"

并且注释掉SRCHBROWSEREXE。然后,就可以看到:
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/vincentuva/article/details/82953757