爬虫怎么能把整个网站给爬下来

47 天前
 gaoyangang

如题:

有什么办法可以把整个网站都爬下来,包括二级页面和各种 tab, 里面包括递归和 JS 渲染,想想都头大,各位彦祖集思广益,想想办法。

3260 次点击
所在节点    程序员
30 条回复
weixind
47 天前
爬虫爬的好,牢饭吃得饱。
crocoBaby
47 天前
直接爬路由
hanierming
47 天前
抓取页面中的所有连接,爬到一个页面就继续访问里面的链接,无限递归。
高级一点的就是分析 URL 结构,自己拼接 URL 抓。
FengMubai
47 天前
试试 idm
erquren
47 天前
是不是为了合规
gaoyangang
47 天前
@weixind 国外网站,不慌
D0n9
47 天前
iyiluo
47 天前
做个链接去重不就行了,链接去重后塞进队列里面慢慢爬,不过你爬虫爬的时候小心有人敲门
gaoyangang
47 天前
@hanierming 有些 tab 要点击,才能加载出来
wysnxzm
47 天前
爬虫小寄巧
hanierming
47 天前
@gaoyangang 那应该是会调接口的吧?你直接请求接口?
whoosy
47 天前
https://github.com/projectdiscovery/katana

这种开源库应该能满足你需求吧
linhongjun
47 天前
以前我记得还有那种网站下载的软件 就是下载整站。。。。后来就没用过了
xiangyuecn
47 天前
无头浏览器直接正常访问渲染,想要什么数据就读什么数据,管他乱七八糟的
150530
47 天前
http://wget.oiweb.cn/ 这种可以全站爬取
justwe7
47 天前
楼上老哥正解,单纯为了抓页面结构展示界面的话直接 https://pptr.dev/ 加延时等待渲染后拿代码
luolw1998
47 天前
@gaoyangang #6 国外网站直接读他们的 sitemap.xml, https://www.semrush.com/sitemap.xml
Mechanical
47 天前
Teleport Ultra
tool2dx
47 天前
@linhongjun 以前相关页面数据都是写在 index.html 里的。现在 index 里啥都没有,数据都是 ajax 动态读取的。
yulgang
47 天前
Offline Explorer

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1062051

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX