之前没想过把他做成产品只是按照自己的实际需求做,断断续续用业余时间做了快两年,为了完成这个项目在去年12月断然离职到现在全职做了4个月,
现在总算是可以晒出来给大家用用了。
他是一款WEB版的通用型网页数据采集工具,我叫他鸟巢采集器。
鸟巢采集器拥有强大的内容采集和数据过滤功能,基于JAVA语言开发,是平台无关的可以在任何系统上运行。
鸟巢采集器分WEB端和后端应用,WEB端不干预后端应用的逻辑只为后端应用提供可视化的操作界面,后端应用完全由用户部署管理,包含“采集器应用”、“爬虫池应用”、“爬虫应用”。
通过WEB端对后端应用的接入,可以对后端应用进行可视化管理。
鸟巢采集器访问地址:
http://www.newcrawler.com/ 鸟巢采集器能做些什么:
采集数据、博客迁移、友情链接检查、定向采集实现垂直搜索 等等。
鸟巢采集器相比其它采集器的优势:
1、平台无关,可以在任何系统上运行如:Linux、Windows ...
2、可以运行在云环境 PAAS 平台上如:Google App Engine 、Sina App Engine 、AppFog ...
3、Raspberry Pi 也是支持的。
4、提供四种插件,让鸟巢采集器可以满足更多更复杂的需求。
5、可以将采集到的数据以文本或附件的形式发布到指定的邮箱,如推送资讯到Kindle。
6、使用WEB的管理方式,可以在任何终端上操作。
总之最大的优势是WEB版平台无关,其它核心功能也都有。
目前唯一一个在用鸟巢采集器抓取数据的网站:
http://www.shishibi.com/ 如果您只想看看效果请使用下面的账号密码登录
test
test
如果您想试用请留下邮箱,我将给您发送邀请码
PS: 正式版发布后会考虑收费但肯定会至少有1个月的试用期,试用期过后后端应用还是可以正常使用的,只是不可以通过WEB端进行可视化管理,对于邀请注册的用户在正式版发布后至少可以多免费使用1年。
提前声明英文版还没找专业人士翻译目前是直接GOOGLE的。
鸟巢采集器还有一个爬虫分享计划,试想一下每抓取一个页面换一个IP是不是很爽呢,只是目前尚未启动 ^^
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/65371
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.