有爬虫通过浏览器加载页面后储存到本地实现的吗? 性能如何? (本机测只有 3 页/秒)

2018-09-14 14:29:30 +08:00
 xuanwu

比如这样的 https://github.com/program-in-chinese/ChromeCrawlerWildSpider ?

当时测了大概只有 3 页 /秒, 不管开 10 个还是 80 个 tab. 感觉好处也有, 比如只要浏览器能打开的页面它都能抓.

1062 次点击
所在节点    问与答
2 条回复
ericv
2018-09-14 14:35:19 +08:00
直接 node 拉请求,然后保存所有请求就可以吧,我做的性能没仔细测,但是肯定省去了浏览器渲染的那一步,不知是不是你要问的
xuanwu
2018-09-14 14:39:28 +08:00
对 浏览器渲染很耗资源. 当时好像看到 headless browser 都有这那的问题(页面内容不完全加载等等), 所以直接试了用 Chrome 渲染.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/489328

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX