V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
wst
V2EX  ›  分享创造

Aragog - 基于 AMQP 的分布式双模式爬虫框架 (Node.js)

  •  
  •   wst · 2020-06-20 17:12:35 +08:00 · 1763 次点击
    这是一个创建于 1615 天前的主题,其中的信息可能已经有所发展或是发生改变。

    因为平时经常写一些和爬虫相关的小项目,受 RabbitMQ 的启发,我将爬虫核心的部分单独做了一个项目。结合 RabbitMQ 后可以只部署一套爬虫服务,供各种其他服务使用,即节约了系统资源,又可以统一管理。

    Aragog 分为服务端,客户端和 RabbitMQ 服务。多个服务端和多个客户端通过 AMQP 协议连接到 RabbitMQ 服务。系统扩展性很好,目前只做了一些基础的功能,欢迎试用和提 issue 。

    这是我第一个真正意义上的开源项目,顺便求个星星鼓励下😁

    服务端: https://github.com/crawlerlab/aragog

    客户端: https://www.npmjs.com/package/aragog-client

    特性

    • 分布式架构: 使用 RabbitMQ 处理任务队列, 灵活的服务扩展和并发控制
    • 双运行模式: 可使用普通 HTTP 请求或无头浏览器执行爬虫任务, 在性能和兼容性上取得平衡
    • 多功能: 支持自定义用户脚本、POST 请求方式、HTTP 认证、设置请求头、获取响应头等功能
    • 提供客户端: 提供 Node.js 客户端, 方便在其他项目中使用
    • 服务端部署方便: 使用 Docker 方式进行部署, 一键安装
    1 条回复    2020-06-29 17:58:16 +08:00
    solaro
        1
    solaro  
       2020-06-29 17:58:16 +08:00
    能把 poxxhub 加入 爬虫吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5115 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 01:15 · PVG 09:15 · LAX 17:15 · JFK 20:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.