爬虫怎么能把整个网站给爬下来

如题：

有什么办法可以把整个网站都爬下来，包括二级页面和各种 tab, 里面包括递归和 JS 渲染，想想都头大，各位彦祖集思广益，想想办法。

hanierming

185 天前

抓取页面中的所有连接，爬到一个页面就继续访问里面的链接，无限递归。
高级一点的就是分析 URL 结构，自己拼接 URL 抓。

iyiluo

185 天前

做个链接去重不就行了，链接去重后塞进队列里面慢慢爬，不过你爬虫爬的时候小心有人敲门

gaoyangang

185 天前

@hanierming 有些 tab 要点击，才能加载出来

hanierming

185 天前

@gaoyangang 那应该是会调接口的吧？你直接请求接口？

whoosy

185 天前

https://github.com/projectdiscovery/katana

这种开源库应该能满足你需求吧

linhongjun

185 天前

以前我记得还有那种网站下载的软件就是下载整站。。。。后来就没用过了

xiangyuecn

185 天前

无头浏览器直接正常访问渲染，想要什么数据就读什么数据，管他乱七八糟的

justwe7

185 天前

楼上老哥正解，单纯为了抓页面结构展示界面的话直接 https://pptr.dev/ 加延时等待渲染后拿代码

luolw1998

185 天前

@gaoyangang #6 国外网站直接读他们的 sitemap.xml, https://www.semrush.com/sitemap.xml

tool2dx

185 天前

@linhongjun 以前相关页面数据都是写在 index.html 里的。现在 index 里啥都没有，数据都是 ajax 动态读取的。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.