首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
xuanwu
V2EX  ›  问与答

有爬虫通过浏览器加载页面后储存到本地实现的吗? 性能如何? (本机测只有 3 页/秒)

  •  
  •   xuanwu · 2018-09-14 14:29:30 +08:00 · 545 次点击
    这是一个创建于 490 天前的主题,其中的信息可能已经有所发展或是发生改变。

    比如这样的 https://github.com/program-in-chinese/ChromeCrawlerWildSpider ?

    当时测了大概只有 3 页 /秒, 不管开 10 个还是 80 个 tab. 感觉好处也有, 比如只要浏览器能打开的页面它都能抓.

    2 回复  |  直到 2018-09-14 14:39:28 +08:00
    ericv
        1
    ericv   2018-09-14 14:35:19 +08:00   ♥ 1
    直接 node 拉请求,然后保存所有请求就可以吧,我做的性能没仔细测,但是肯定省去了浏览器渲染的那一步,不知是不是你要问的
    xuanwu
        2
    xuanwu   2018-09-14 14:39:28 +08:00
    对 浏览器渲染很耗资源. 当时好像看到 headless browser 都有这那的问题(页面内容不完全加载等等), 所以直接试了用 Chrome 渲染.
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2046 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 26ms · UTC 01:05 · PVG 09:05 · LAX 17:05 · JFK 20:05
    ♥ Do have faith in what you're doing.