V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mingtdlb
V2EX  ›  程序员

抓取静态网页

  •  
  •   mingtdlb · 2021-01-01 17:55:15 +08:00 · 717 次点击
    这是一个创建于 1204 天前的主题,其中的信息可能已经有所发展或是发生改变。

    问下 v 友们,有没有哪个比较好用的工具可以抓取整个网站的所有网页,都是静态的。

    这网站在国外,科学上网了还是慢,想给他全部抓下来,离线看。试了 idm 的站点抓取,提示“连接超时,无法下载文件”,抓不到网页!

    13 条回复    2021-01-07 10:53:58 +08:00
    sedgwickz
        1
    sedgwickz  
       2021-01-01 18:22:48 +08:00   ❤️ 1
    musi
        2
    musi  
       2021-01-01 19:05:25 +08:00 via iPhone
    写个爬虫放到国外的服务器运行就好了
    mingtdlb
        3
    mingtdlb  
    OP
       2021-01-01 22:53:50 +08:00
    土办法 wget 应该是搞定了😂
    oneoyn
        4
    oneoyn  
       2021-01-02 19:11:36 +08:00
    网站发来 我试试
    xuanzz
        5
    xuanzz  
       2021-01-03 14:12:32 +08:00   ❤️ 2
    试试在国外的服务器、
    wget -r -p -np -k ./ https://xxx.com
    mingtdlb
        6
    mingtdlb  
    OP
       2021-01-03 23:23:25 +08:00
    @xuanzz 我没加 np 选项,下载是下载下来了,不过没有扩展名,得批量改名为.html,用浏览器打开才正常。这个 np 是啥意思呢
    Y29tL2gwd2Fy
        7
    Y29tL2gwd2Fy  
       2021-01-04 03:39:36 +08:00 via Android
    github 。com/gildas-lormeau/SingleFile
    mingtdlb
        8
    mingtdlb  
    OP
       2021-01-04 09:32:31 +08:00
    @Y29tL2gwd2Fy 你这个不行,我要全站!当页 ctrl+s 可以的
    wangritian
        9
    wangritian  
       2021-01-04 09:44:07 +08:00
    研究下为什么上网慢?我怀疑是网站使用的某个第三方字体或脚本,没在 gfwlist 中,打开 F12 看看吧
    mingtdlb
        10
    mingtdlb  
    OP
       2021-01-04 11:49:25 +08:00
    @wangritian 我挂了$$了,还是不行。非常慢,无奈 就想着给他抓下来了。但抓下来的,又全是没有扩展名的,浏览器打开是源码,我还得搞个本地的 nginx🤣
    wangritian
        11
    wangritian  
       2021-01-04 13:46:10 +08:00
    @mingtdlb 只是打开$$不一定走代理,还要确认工作模式,如果是 PAC,会有一个域名列表,包含在内的才走代理,其余直连;全局模式是无脑走代理。切换到全局模式试一下
    xuanzz
        12
    xuanzz  
       2021-01-06 15:05:20 +08:00   ❤️ 1
    @mingtdlb #6
    $ man wget,然后搜索 -np 就有了

    -np
    --no-parent
    Do not ever ascend to the parent directory when retrieving recursively. This is a useful option, since it guarantees that only
    the files below a certain hierarchy will be downloaded.
    mingtdlb
        13
    mingtdlb  
    OP
       2021-01-07 10:53:58 +08:00
    @wangritian 这个我确认过了,我用 clash,在 log 里是有看到
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2841 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 14:21 · PVG 22:21 · LAX 07:21 · JFK 10:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.