发现了一个超棒的在线网页下载工具(仿站工具),求问有没源码或者原理

2018-07-02 21:22:20 +08:00
 akaayy
一般来说,不过是另存为还是用 wget 来下载,总会有这样那样的问题,要再下载资源,再整理,才能得到满意的效果

但是今天发现了一个在线工具,输入网址,提交后直接就给你一个跟原来网页一样呈现的页面,包含所有资源,保留原有文件结构,可以直接打包下载

这个工具地址是: http://code68.com/DownWebSite/Index

太好用了,就怕这个站长有一天不提供这个服务了,所以想问问大家,有没有这个工具的源码,或者同类的工具,或者这种工具的实现原理。

谢谢!
11134 次点击
所在节点    问与答
10 条回复
SingeeKing
2018-07-02 21:58:19 +08:00
不再提供的话就用 SiteSucker
zbinlin
2018-07-02 22:06:47 +08:00
用 puppeteer 应该可以实现
zro
2018-07-02 23:05:47 +08:00
(看到头像,有点怀念大头死变态。。)
yangqi
2018-07-02 23:14:17 +08:00
放弃仿站,回头是岸
lhx2008
2018-07-02 23:26:54 +08:00
原理不难,从 html 开始递归遍历所有链接,并且修改为本地链接,对 css 则把所有资源链接转化为本地链接,并且下载。难点在于对 js 的解析,里面有很多链接很难完整转为本地链接。已经有很多轮子,但是没有很好用的。
flyxl
2018-07-02 23:47:09 +08:00
puppeteer intercept request 应该可以
Akkuman
2018-07-03 00:23:51 +08:00
wget --mirror -p --convert-links -P ./LOCAL URL
就可以下载整站了
akaayy
2018-07-03 08:57:10 +08:00
@SingeeKing
@Akkuman

很多时候,我并不想下载整站,只想下载一个页面和它需要的所有资源😜
Akkuman
2018-07-03 09:40:09 +08:00
@akaayy 那改改 wget 参数就行了,具体你可以查查
akaayy
2018-07-03 10:02:18 +08:00
@Akkuman

在网上找了一个 https://blog.csdn.net/lizhitao/article/details/29817315

wget 下载一个页面以及所需的所有文件(包括嵌入的 js,css 等)
wget -E -H -k -K -p http://jsonviewer.stack.hu

运行之后,还是不行,css 里面的图片都没有下载下来

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/467601

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX