有爬虫通过浏览器加载页面后储存到本地实现的吗? 性能如何? (本机测只有 3 页/秒)

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2359 天前的主题，其中的信息可能已经有所发展或是发生改变。

当时测了大概只有 3 页 /秒, 不管开 10 个还是 80 个 tab. 感觉好处也有, 比如只要浏览器能打开的页面它都能抓.

2 条回复 • 2018-09-14 14:39:28 +08:00

ericv

2018-09-14 14:35:19 +08:00

直接 node 拉请求，然后保存所有请求就可以吧，我做的性能没仔细测，但是肯定省去了浏览器渲染的那一步，不知是不是你要问的

xuanwu

2018-09-14 14:39:28 +08:00

对浏览器渲染很耗资源. 当时好像看到 headless browser 都有这那的问题(页面内容不完全加载等等), 所以直接试了用 Chrome 渲染.