做了两年多的一个项目,第一次邀请测试,希望对您有用

2013-04-09 13:35:34 +08:00
 sohoer
之前没想过把他做成产品只是按照自己的实际需求做,断断续续用业余时间做了快两年,为了完成这个项目在去年12月断然离职到现在全职做了4个月,
现在总算是可以晒出来给大家用用了。

他是一款WEB版的通用型网页数据采集工具,我叫他鸟巢采集器。
鸟巢采集器拥有强大的内容采集和数据过滤功能,基于JAVA语言开发,是平台无关的可以在任何系统上运行。
鸟巢采集器分WEB端和后端应用,WEB端不干预后端应用的逻辑只为后端应用提供可视化的操作界面,后端应用完全由用户部署管理,包含“采集器应用”、“爬虫池应用”、“爬虫应用”。
通过WEB端对后端应用的接入,可以对后端应用进行可视化管理。

鸟巢采集器访问地址:
http://www.newcrawler.com/

鸟巢采集器能做些什么:
采集数据、博客迁移、友情链接检查、定向采集实现垂直搜索 等等。

鸟巢采集器相比其它采集器的优势:
1、平台无关,可以在任何系统上运行如:Linux、Windows ...
2、可以运行在云环境 PAAS 平台上如:Google App Engine 、Sina App Engine 、AppFog ...
3、Raspberry Pi 也是支持的。
4、提供四种插件,让鸟巢采集器可以满足更多更复杂的需求。
5、可以将采集到的数据以文本或附件的形式发布到指定的邮箱,如推送资讯到Kindle。
6、使用WEB的管理方式,可以在任何终端上操作。
总之最大的优势是WEB版平台无关,其它核心功能也都有。


目前唯一一个在用鸟巢采集器抓取数据的网站:
http://www.shishibi.com/

如果您只想看看效果请使用下面的账号密码登录
test
test

如果您想试用请留下邮箱,我将给您发送邀请码

PS: 正式版发布后会考虑收费但肯定会至少有1个月的试用期,试用期过后后端应用还是可以正常使用的,只是不可以通过WEB端进行可视化管理,对于邀请注册的用户在正式版发布后至少可以多免费使用1年。
提前声明英文版还没找专业人士翻译目前是直接GOOGLE的。
鸟巢采集器还有一个爬虫分享计划,试想一下每抓取一个页面换一个IP是不是很爽呢,只是目前尚未启动 ^^
15268 次点击
所在节点    分享创造
149 条回复
niko
2013-04-09 14:03:38 +08:00
貌似很NB的样子,给个邀请码吧, t@uubb.cc
ostrichmyself
2013-04-09 14:13:14 +08:00
ostrichmyself@gmail.com

看好你~
Ziya
2013-04-09 14:13:53 +08:00
邀请下看看吧
Ziya.TLF#Gmail.com
sohoer
2013-04-09 14:20:52 +08:00
@Ziya
@ostrichmyself
@niko
已发送,注意查收,谢谢支持!
lj0014
2013-04-09 15:17:44 +08:00
来试用下,曾用scrapy爬过数据

lj0014#gmail.com
jerry
2013-04-09 15:25:51 +08:00
嗯,有需求,来个邀请码试试嘛 lxb429#gmail.com
Isight
2013-04-09 15:27:20 +08:00
这个跨平台不错,求测试 zbq#live.cn
iiduce
2013-04-09 15:35:45 +08:00
这个感兴趣 iiduce#163.com
andybest
2013-04-09 15:39:41 +08:00
求邀请,已注册了: hankfo#gmail.com
jackyzy823
2013-04-09 15:41:45 +08:00
jackyzy823#gmail.com 感兴趣→_→
nsxuan
2013-04-09 15:41:47 +08:00
求测试 shuichonger@gmail.com
juven
2013-04-09 15:47:07 +08:00
感兴趣,谢LZ。juven.lab # gmail.com
sohoer
2013-04-09 15:48:19 +08:00
@juven
@nsxuan
@jackyzy823
@andybest
@iiduce
@Isight
@jerry
@lj0014

已发送,注意查收,谢谢支持!
binux
2013-04-09 15:48:48 +08:00
test账号试用了一下,感觉太复杂了,太流程化了

贴一个我们的爬虫系统图,用程序化脚本控制
sohoer
2013-04-09 15:54:17 +08:00
@binux 你这个不是通用的吧,自己定制是可以做到最简单的效果,如果每次都定制这个工作量就大了
Mrlee
2013-04-09 15:59:15 +08:00
Gmail: @Bestmrlee
sevenday
2013-04-09 15:59:20 +08:00
麻烦发个邀请码,多谢! mustnot # gmail.com
andybest
2013-04-09 16:36:30 +08:00
@sohoer 是不是给账户默认提供一个环境?
现在要自己有GAE,并且安装3份程序到自己GAE,自己机器还要装发布工具。。。。

这个测试成本也太高了。。想简单看下功能都不行。。。。
lj0014
2013-04-09 16:36:39 +08:00
试用了下,没整成功,总是报错。
markmx
2013-04-09 16:38:03 +08:00
imanbian#gmail.com
求邀请码!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/65371

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX