自己写了一个可以把单机 java 爬虫比较快捷的整合成分布式爬虫的框架
框架会为爬虫的工作节点自动分发任务,完成去重功能,而且有比较高的稳定性(牺牲了一些效率),单点故障和集群崩溃都不必担心,关键持久化的步骤都是原子性的,不会丢失数据~
这个框架不关心你使用的是什么爬虫框架,也就说爬虫的业务逻辑跟他无关,是松耦合的,所以适用性是比较好的
项目是基于 zookeeper+hdfs+netty 上的,也就说只要有 zookeeper 和 hadoop 环境就能很快速的部署啦
自己也做了简单的单机测试和集群测试( 7 虚拟机 hadoop 的 HA 集群,逃)
虽然现在功能还不是特别强大,但是整体的框架已经搭好了,未来的规划我也已经做好了,我会努力让它变得强大起来的~
提供了 shell 交互的功能也有 java 的 api,也基于 tomcat 和 AmdinLTE 写了一个网页监控的 demo
后面会推出 python 和 go 的接口~
项目地址在这里~ WebVeins
文档后面我会很细致的去写,把自己踩过的坑和想法都写进去,如果你想学习而且刚刚接触 zookeeper 说不定会有一点点帮助 (逃)
因为暑假以后要准备找工作了,所以想宣传一下自己的这个项目,望大家能支持一下,感激不尽!!
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.