请问有什么工具或方法,可以快速保存一个网页中所有的链接网页到本地?

2023-06-28 14:52:34 +08:00
 Margelator
1436 次点击
所在节点    问与答
12 条回复
rimworld
2023-06-28 15:07:24 +08:00
这是获取所有链接,let linkList = Array.from(document.getElementsByTagName("a")).map(item=>item.href),
你可以自己写个浏览器程序拓展,在页面上搞个按钮,按钮里是个 a 标签,标签链接是'data:text/plain;charset=utf-8,' + encodeURIComponent(linkList.join("\n"))
或者就来个爬虫,就 nodejs ,请求页面,然后再加个 cheerio 来解析获取到的 html 。
2333wz
2023-06-28 15:09:33 +08:00
IDM 可以下载整个网站
Margelator
2023-06-28 15:11:30 +08:00
@rimworld 专业!
tool2d
2023-06-28 15:12:01 +08:00
以前网站都是静态页,有那种 webzip 的工具可以下载。

现在都是动态单页,内容是实时从服务器上拉下来的,最好的方法是自己写点脚本插件。

chrome crx 插件特别适合,在后台监控页面 DOM 数据。
Margelator
2023-06-28 15:12:29 +08:00
@2333wz 我来了解一下
Margelator
2023-06-28 15:14:13 +08:00
@tool2d 没有现成的插件吗,看来这种需求不多啊
bjzhush
2023-06-28 15:19:14 +08:00
Margelator
2023-06-28 15:35:21 +08:00
@bjzhush 赞,谢谢~
hahastudio
2023-06-28 16:14:55 +08:00
ArchiveBox ?给一个 link 然后 depth=1
dsgdsfh
2023-06-28 16:19:06 +08:00
wget 直接下载整站到本地
wget -r -p -np -k www.xxx.com
-r --recursive (递归) specify recursive download.(指定递归下载)
-k --convert-links (转换链接) make links in downloaded HTML point to local files.(将下载的 HTML 页面中的链接转换为相对链接即本地链接)
-p --page-requisites (页面必需元素) get all images, etc. needed to display HTML page.(下载所有的图片等页面显示所需的内容)
-np --no-parent (不追溯至父级) don't ascend to the parent directory.

这里写代码片额外参数:

-nc 断点续传
-o 生成日志文件
Margelator
2023-06-28 17:44:13 +08:00
@dsgdsfh 学习了
810244966
2023-06-28 18:56:45 +08:00
有个专门扒网站的软件,扒下来可以本地看,样式什么的都很齐全,可以自己设置深度。下面是分享链接,七天有效
链接: https://pan.baidu.com/s/1XGWpJvcISbtygMy4pn8ZLw 提取码: 5u5b 复制这段内容后打开百度网盘手机 App ,操作更方便哦
--来自百度网盘超级会员 v6 的分享

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/952391

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX