有爬虫通过浏览器加载页面后储存到本地实现的吗? 性能如何? (本机测只有 3 页/秒)

2018-09-14 14:29:30 +08:00

xuanwu

当时测了大概只有 3 页 /秒, 不管开 10 个还是 80 个 tab. 感觉好处也有, 比如只要浏览器能打开的页面它都能抓.

1083 次点击

所在节点

2 条回复

ericv

2018-09-14 14:35:19 +08:00

直接 node 拉请求，然后保存所有请求就可以吧，我做的性能没仔细测，但是肯定省去了浏览器渲染的那一步，不知是不是你要问的

xuanwu

2018-09-14 14:39:28 +08:00

对浏览器渲染很耗资源. 当时好像看到 headless browser 都有这那的问题(页面内容不完全加载等等), 所以直接试了用 Chrome 渲染.

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.