V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
mywaiting
V2EX  ›  问与答

有没有能用或者说好用的 Chrome Spider?

  •  
  •   mywaiting · 2015-07-07 21:03:26 +08:00 · 2140 次点击
    这是一个创建于 3453 天前的主题,其中的信息可能已经有所发展或是发生改变。
    相信Spider用来收集信息已经是常态了吧? @binux 的 pyspider 成了日常收集信息的利器,但是也有了很多的问题

    1、不断有各种JS、Cookie计算token来防止抓取,当然访问频次这个没有办法,只能不断地增加代理用的IP吧
    2、Chrome的App已经足够强大

    基于上述的两点,我想,是不是有一种基于Chrome的Spider,App形式,直接在Chrome里面搞定各种信息的抓取

    有这样的App么?如果没有,来挖个坑如何?
    6 条回复    2015-07-08 16:12:27 +08:00
    nikola
        1
    nikola  
       2015-07-07 23:09:01 +08:00 via iPhone
    mark
    shierji
        2
    shierji  
       2015-07-07 23:15:48 +08:00 via Android
    你说的是selenium吧
    mywaiting
        3
    mywaiting  
    OP
       2015-07-08 08:51:26 +08:00
    @shierji 类似吧。selenium跟phantomJS这样的差不多吧,我想说的是,或者说我想象的是Chrome Spider,就是一个Chrome的App,然后这个App的界面类似于pyspider的Web界面那样的,左侧是网页浏览,右侧上方是抓取脚本编辑器(Javascript),右侧下方是抓取日志输出

    差不多就是chrome在右侧调用开发者工具的界面样子。
    binux
        4
    binux  
       2015-07-08 12:44:09 +08:00
    爬取量大于100万之后,实际上分析请求的代价就小于使用完全渲染的代价了。
    而且爬多了你就会发现,怎么抓这个问题,太容易解决了,根本没有必要付出那么大代价去开发什么 app
    mywaiting
        5
    mywaiting  
    OP
       2015-07-08 15:03:48 +08:00
    @binux 就是Cookie和Js的token计算防止抓取这方法处理起来略麻烦,觉得烦了就想着有没有chrome app这种完全渲染后抓取的实现

    还好抓取量不大,就是检测几百个相关的微信公众号吧。目前我是写了个简单的chrome app的backgraound任务定时调用要抓取的url,用jQuery来提取渲染好的页面的内容。这个方法除了服务器限制抓取频率外,定时弹个图片验证码什么的,没有任何方法能够抵挡这种抓取,因为这算是真实的用户请求流量,绝对真实的
    binux
        6
    binux  
       2015-07-08 16:12:27 +08:00
    @mywaiting 摸清楚就不麻烦。而且,爬取是要并行进行的,那么 cookie 怎么处理并发问题?最终的值以哪个为准?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5220 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 08:35 · PVG 16:35 · LAX 00:35 · JFK 03:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.