V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ufo22940268
V2EX  ›  问与答

你们有在生产环境中用 PhantomJS 做爬虫吗

  •  
  •   ufo22940268 · 2015-12-19 11:57:57 +08:00 · 4786 次点击
    这是一个创建于 3295 天前的主题,其中的信息可能已经有所发展或是发生改变。
    RT

    感觉速度太慢了。但是如果有些网站用静态爬虫的话好难分析。
    第 1 条附言  ·  2015-12-19 18:14:14 +08:00

    我又继续研究了下,我发现在用PhantomJS时候主要碰到下面几个问题

    • 速度太慢
    • 有些网页渲染有问题
    • 解析不稳定。就是有的时候能正常解析,有的时候不可以

    这是我使用PhantomJS的姿势不对,还是现在动态爬虫不够成熟。

    9 条回复    2015-12-20 16:34:13 +08:00
    fractal314
        1
    fractal314  
       2015-12-19 13:33:41 +08:00 via Android   ❤️ 1
    这个适合小规模的抓取,太耗 cpu
    rootsir
        2
    rootsir  
       2015-12-19 15:00:32 +08:00
    @fractal314 headless 哪种不占 CPU 呢
    liuzhen
        3
    liuzhen  
       2015-12-19 15:18:57 +08:00
    用 PhantomJS 做截图
    fractal314
        4
    fractal314  
       2015-12-19 15:26:57 +08:00
    @rootsir 逗逼
    rootsir
        5
    rootsir  
       2015-12-19 15:30:49 +08:00
    @fractal314 擦 ,干嘛骂人呢
    ezreal
        6
    ezreal  
       2015-12-19 15:46:49 +08:00
    有,我们的 SEO 系统就是用 PhantomJS 做的,所有商品详情页用 PhantomJS 爬下来存 mongoldb 中,爬虫过来直接喂静态的页面
    icedx
        7
    icedx  
       2015-12-19 16:19:28 +08:00
    我们的充值系统就是通过 PhantomJS 读取支付宝的
    flaman
        8
    flaman  
       2015-12-19 23:05:09 +08:00
    关键字 scrapy-splash
    kkx
        9
    kkx  
       2015-12-20 16:34:13 +08:00 via iPhone
    大家有碰到过 过一段时间爬取速度变慢的么 重起程序后又能恢复速度 感觉有内存泄漏问题
    我用 phantomjs 和 selenium
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5623 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 06:38 · PVG 14:38 · LAX 22:38 · JFK 01:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.