V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
intohole
V2EX  ›  程序员

求关注~一个 low 的爬虫框架,你可以吐槽!

  •  1
     
  •   intohole · 2017-12-07 17:55:50 +08:00 · 2155 次点击
    这是一个创建于 2570 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想实现自带策略的抓取框架,现在努力中,你有兴趣加入这个工程吗? 求轻虐,我小白!

    https://github.com/intohole/xspider

    我想各种解耦爬虫框架,奈何我小白!求各位大神照顾,多关注下,给我点动力 ,谢谢

    主要是,为了各种节省资源(文件队列/ bloomfilter 过滤/文件存储),抓取网站使用!

    8 条回复    2017-12-09 23:29:42 +08:00
    lhx2008
        1
    lhx2008  
       2017-12-07 18:00:40 +08:00 via Android
    感觉是不是有点为了解耦而解耦的感觉,扩展性也不太好
    intohole
        2
    intohole  
    OP
       2017-12-07 18:03:56 +08:00
    @lhx2008 可以看下这个~写了一段时间,感觉有些问题,自己在用,想不断优化;
    cheesea
        3
    cheesea  
       2017-12-07 18:07:08 +08:00
    我比较想知道你怎么做限流的?
    intohole
        4
    intohole  
    OP
       2017-12-07 18:33:58 +08:00
    @cheesea 我也在思考这个问题
    intohole
        5
    intohole  
    OP
       2017-12-08 10:16:18 +08:00
    @cheesea 请问你这面有什么好项目或者策略推荐吗
    cheesea
        6
    cheesea  
       2017-12-08 18:04:59 +08:00
    @intohole
    木有~
    我只知道 pyspider 用令牌桶算法来控制请求速率.
    cheesea
        7
    cheesea  
       2017-12-08 18:10:19 +08:00
    @intohole
    或许你可以写一个根据响应来智能调整请求速率的策略~
    intohole
        8
    intohole  
    OP
       2017-12-09 23:29:42 +08:00
    @cheesea 谢谢 我原来跟 pyspider 是一家公司的,我在策略组 , 我会想想怎么集成策略
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1453 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 17:15 · PVG 01:15 · LAX 09:15 · JFK 12:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.