如何使用wget下载网站

下载 url:
wget http://www.w3schools.com/
全站下载
wget -r https://www.gnu.org/
(一般来说,网站的页面会有很多链接,点击之后可以链接到其他页面,其他页面也可能有链接,就这样一级一级链接下去,如果要把这些所有关联的页面都下载下来)
但是大部分网站不允许你下载所有网站的内容,如果网站检测不到浏览器标识,会拒绝你的下载连接或者给你发送回一个空白网页。这个时候在 wget 后面加上 user-agent 就可以:
wget -r -p -U Mozilla https://www.gnu.org/
为了避免被网站加入黑名单,我们可以限制下载的速度以及两次下载之间的等待时间:
wget --wait=20 --limit-rate=20K -r -p -U Mozilla https://www.gnu.org/
如何只是想下载特定文件夹下的网页,使用 --no-parent:
//只下载 `/js` 下的所有页面
wget --wait=20 --limit-rate=20K --no-parent -r -p -U Mozilla https://www.gnu.org/js/default.asp
更多内容请参考 GNU Wget Manual
https://www.gnu.org/

发表评论

电子邮件地址不会被公开。 必填项已用*标注