[招募] 萌否业余项目寻求负责人及技术合作伙伴,欢迎有余力的朋友来挑战

2013-03-11 20:14:29 +08:00
 Ariagle
萌否是一个动漫 ACG 垂直领域的业余项目,我们团队一直在用业余时间做这个项目,并不以盈利为目的。我们正在为主站开发新版程序(beta4),但人手不足,我们希望能有同好加入进来,负责独立的模块。

这是业余项目,并不能给你带来薪水,但它可以给你一个自由展示才华的机会。我们不会逼你赶工,没有强制的 Deadline 。同时,我们也希望你具有独当一面的技术水平,能够 hold 得住一个独立的模块甚至是作为其中一个项目的负责人。


1、
项目:图片存储及处理系统
人数:1
语言:NodeJS,当然你也可以用 Python 或 PHP
描述:
一个类似于又拍云存储或 Picasa 的图片处理系统,其基本功能是,能够根据 URL 参数来自由裁剪图片。 V2EX 上已有童鞋做出了类似的 PHP 版本: /t/61924 ,但我们希望你最好能够用我们熟悉的 NodeJS 来做。它将成为一个通用平台为大家所用,但同时也需要制定一些专用接口来为萌否系列站点更好地服务。我们将会有独立的域名和专门的服务器来运行这个项目,所以我们希望你最好能够独当一面,最理想的情况是——在拿到服务器权限后,你能将剩下的技术问题都做好。
(PS1 当然不会说扔给你后就不管了,我们也会团队互助,但若能独立负责好自己的领域就最好了)
(PS2 该平台暂时不会有面向普通用户的交互,所以不必担心网站界面等问题)


2、
模块:定向爬虫
人数:1
语言:NodeJS
描述:
并不是要做一个通用的爬虫系统,而是针对指定的网站,定时抓取指定的内容。要抓的内容将随网站类型的不同而不同,有的可通过 API ,有的得分析 HTML ,所以你可能要为每一种网站写一个匹配模版,但我相信通过 NodeJS 和 jQuery 可以轻松实现。有些网站可能会有反爬处理,你需要对此有所准备。之所以限定用 NodeJS ,是因为我们对它更加熟悉,新版萌否主站的部分后端也是用它。


3、
模块:不定向爬虫
人数:1
语言:NodeJS
描述:
我们希望这个爬虫,能够尽可能地获取到一些新的实体内容。这个实体的标准是,它可以拿来用作百科词条。例如,一部新的作品,以及该作品下的虚拟角色、工作人员。由于目前并没有哪个网站拥有非常系统的数据(即便是维基百科也没有很好的索引,难以着手),所以你可能需要从多个网站中寻找数据并整合。最基础地,你需要获取到实体的名字;更进一步,最好能拿到它的描述信息;如果你更牛逼,最好能获取到实体之间的关系。由于内容将涉及到中、日、英等语言,所以你需要有一定的数据清理及整理能力。我们希望你最好本身就是一个 ACG fan ,这样才能保证你能找到有效的数据来源。


4、
模块:实体识别
人数:1~2
语言:NodeJS 或 不限
描述:
对于爬虫收录回来的海量数据,分析出每条资源所对应的实体,并将其对应到我们维基系统中的对应条目。比如说,你需要分析出一条 BT 资源是关于哪部作品的,然后将它跟我们维基系统中已有的作品条目进行关联。同时,你最好也要能够识别出系统中不存在的实体,并将其添加到新条目中去。所以,你最起码得熟练掌握正则表达式的运用。此外,由于文本情况复杂,比如一部作品可能拥有中、日、英译名以及额外的数个别名,因此如果你有文本处理、机器学习等相关经验,就最好不过了。



现阶段基本就是这么多。如果你有兴趣、有疑问,或者想讨论需求细节,欢迎通过任何能找到我的方法与我联系,比如:
推特及微博: @Ariagle
邮箱: ariagle [at] moefou.org
扣扣: 910437475


顺便附一下萌否的各站点:
萌否 http://moefou.org/ (主站,即将升级,上述2~4点将用于新版之中)
萌否电台 http://moe.fm/
MoeApps http://app.moefou.org/
萌否开放平台 http://open.moefou.org/
(上述第1点将启用新的域名)
6867 次点击
所在节点    程序员
24 条回复
ipconfiger
2013-03-11 20:39:21 +08:00
https://github.com/ipconfiger/pyImageServer 关于第一个需求我这里有一个项目貌似合拍,如果贵站愿意使用将不胜荣幸
Ariagle
2013-03-11 20:48:27 +08:00
@ipconfiger 感谢~如果使用这个的话,可能需要你再帮忙定制一些功能。不知该项目当前有无使用到某一具体的应用中去?
chengyuhui
2013-03-11 21:13:21 +08:00
咱似乎可以承担定向爬虫喵~
ipconfiger
2013-03-11 21:45:16 +08:00
@Ariagle 定制啥?能具体说说么?这个项目是从咕咚网的图片服务剥离出来的,当然代码肯定是重头写过了的。
Ariagle
2013-03-11 21:50:46 +08:00
@chengyuhui 如何联系你呢?


@ipconfiger 比如,直接根据 URL 来获取网络上的图片并处理。具体可以私下谈~
ipconfiger
2013-03-11 22:03:55 +08:00
@Ariagle easy,基本上就两个部分,获取图片,根据参数处理。可以弄成可扩展的系统,从url获取图片对Python来说就一句话的事情。github上有我联系方式
chengyuhui
2013-03-11 22:11:07 +08:00
@Ariagle chengyuhui1@gmail.com (E-mail/Google Talk)
Ariagle
2013-03-11 22:21:57 +08:00
@ipconfiger
@chengyuhui
已通过邮件联系两位。
Tianpu
2013-03-12 00:23:57 +08:00
纯技术讨论 图片的话 可以用nginx的image_filter 后端是gd 只要不是超大图 gd还是比imagik有优势的
Ariagle
2013-03-12 00:59:37 +08:00
@Tianpu 主要是会涉及到不少逻辑处理,开发层面还是用团队更熟悉的语言为好
rorvn
2013-03-12 03:53:34 +08:00
我或许可以试一试第一个。我虽然写过nodejs,但不是很熟练。
Ariagle
2013-03-12 09:36:25 +08:00
@rorvn 那你更熟悉哪种语言呢?也许也可以试试,如何联系你?
CoderGeek
2013-03-12 16:21:23 +08:00
我只能支持你们了 不是nodejs的 我是一枚java coder 加油
rorvn
2013-03-12 16:53:08 +08:00
rorvn
2013-03-12 16:58:34 +08:00
@Ariagle 用来写后端的语言我只会nodejs(除非算进C)…… 而且我还不是很熟练……
mercurylanded
2013-03-12 17:24:01 +08:00
3,4感觉很难的样子
akinoniku
2013-03-12 18:02:56 +08:00
最近在重写星祈娘,虽然是先做星祈娘再做萌否的,不过如果萌否可以集成星祈娘的功能就好了。
Ariagle
2013-03-12 18:11:24 +08:00
@rorvn 提交后白屏了……有什么通信方式可以私下聊聊么?


@mercurylanded 点头。3、4我目前还没有特别好的解决方案,1和2属于我没时间做。


@akinoniku 对于集成你有什么点子吗?
rorvn
2013-03-12 18:41:21 +08:00
@Ariagle 你没把框填满吧…… 因为是demo,错误处理基本就没管。

联系方式:gmail/gtalk: drdarkraven@gmail.com
ncwhale
2013-03-13 10:50:41 +08:00
@akinoniku 星祈娘——这和咱之前在自己的nfs上写的cron+mldonkey自动下片功能非常相像啊喵~233~获取RSS推送后正则一下⑨能给mldonkey推送种子了喵~233~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/62611

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX