抓取静态网页

问下 v 友们，有没有哪个比较好用的工具可以抓取整个网站的所有网页，都是静态的。

这网站在国外，科学上网了还是慢，想给他全部抓下来，离线看。试了 idm 的站点抓取，提示“连接超时，无法下载文件”，抓不到网页！

sedgwickz

2021-01-01 18:22:48 +08:00

看看我写的 https://jsonhunter.vercel.app/

musi

2021-01-01 19:05:25 +08:00

写个爬虫放到国外的服务器运行就好了

xuanzz

2021-01-03 14:12:32 +08:00

试试在国外的服务器、
wget -r -p -np -k ./ https://xxx.com

mingtdlb

2021-01-03 23:23:25 +08:00

@xuanzz 我没加 np 选项，下载是下载下来了，不过没有扩展名，得批量改名为.html，用浏览器打开才正常。这个 np 是啥意思呢

Y29tL2gwd2Fy

2021-01-04 03:39:36 +08:00

github 。com/gildas-lormeau/SingleFile

mingtdlb

2021-01-04 09:32:31 +08:00

@Y29tL2gwd2Fy 你这个不行，我要全站！当页 ctrl+s 可以的

wangritian

2021-01-04 09:44:07 +08:00

研究下为什么上网慢？我怀疑是网站使用的某个第三方字体或脚本，没在 gfwlist 中，打开 F12 看看吧

mingtdlb

2021-01-04 11:49:25 +08:00

@wangritian 我挂了$$了，还是不行。非常慢，无奈就想着给他抓下来了。但抓下来的，又全是没有扩展名的，浏览器打开是源码，我还得搞个本地的 nginx🤣

wangritian

2021-01-04 13:46:10 +08:00

@mingtdlb 只是打开$$不一定走代理，还要确认工作模式，如果是 PAC，会有一个域名列表，包含在内的才走代理，其余直连；全局模式是无脑走代理。切换到全局模式试一下

xuanzz

2021-01-06 15:05:20 +08:00

@mingtdlb #6
$ man wget，然后搜索 -np 就有了

-np
--no-parent
Do not ever ascend to the parent directory when retrieving recursively. This is a useful option, since it guarantees that only
the files below a certain hierarchy will be downloaded.

mingtdlb

2021-01-07 10:53:58 +08:00

@wangritian 这个我确认过了，我用 clash，在 log 里是有看到

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/740906

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.