[招募] 萌否业余项目寻求负责人及技术合作伙伴，欢迎有余力的朋友来挑战

萌否是一个动漫 ACG 垂直领域的业余项目，我们团队一直在用业余时间做这个项目，并不以盈利为目的。我们正在为主站开发新版程序（beta4），但人手不足，我们希望能有同好加入进来，负责独立的模块。

这是业余项目，并不能给你带来薪水，但它可以给你一个自由展示才华的机会。我们不会逼你赶工，没有强制的 Deadline 。同时，我们也希望你具有独当一面的技术水平，能够 hold 得住一个独立的模块甚至是作为其中一个项目的负责人。

1、
项目：图片存储及处理系统
人数：1
语言：NodeJS，当然你也可以用 Python 或 PHP
描述：
一个类似于又拍云存储或 Picasa 的图片处理系统，其基本功能是，能够根据 URL 参数来自由裁剪图片。 V2EX 上已有童鞋做出了类似的 PHP 版本： /t/61924 ，但我们希望你最好能够用我们熟悉的 NodeJS 来做。它将成为一个通用平台为大家所用，但同时也需要制定一些专用接口来为萌否系列站点更好地服务。我们将会有独立的域名和专门的服务器来运行这个项目，所以我们希望你最好能够独当一面，最理想的情况是——在拿到服务器权限后，你能将剩下的技术问题都做好。
（PS1 当然不会说扔给你后就不管了，我们也会团队互助，但若能独立负责好自己的领域就最好了）
（PS2 该平台暂时不会有面向普通用户的交互，所以不必担心网站界面等问题）

2、
模块：定向爬虫
人数：1
语言：NodeJS
描述：
并不是要做一个通用的爬虫系统，而是针对指定的网站，定时抓取指定的内容。要抓的内容将随网站类型的不同而不同，有的可通过 API ，有的得分析 HTML ，所以你可能要为每一种网站写一个匹配模版，但我相信通过 NodeJS 和 jQuery 可以轻松实现。有些网站可能会有反爬处理，你需要对此有所准备。之所以限定用 NodeJS ，是因为我们对它更加熟悉，新版萌否主站的部分后端也是用它。

3、
模块：不定向爬虫
人数：1
语言：NodeJS
描述：
我们希望这个爬虫，能够尽可能地获取到一些新的实体内容。这个实体的标准是，它可以拿来用作百科词条。例如，一部新的作品，以及该作品下的虚拟角色、工作人员。由于目前并没有哪个网站拥有非常系统的数据（即便是维基百科也没有很好的索引，难以着手），所以你可能需要从多个网站中寻找数据并整合。最基础地，你需要获取到实体的名字；更进一步，最好能拿到它的描述信息；如果你更牛逼，最好能获取到实体之间的关系。由于内容将涉及到中、日、英等语言，所以你需要有一定的数据清理及整理能力。我们希望你最好本身就是一个 ACG fan ，这样才能保证你能找到有效的数据来源。

4、
模块：实体识别
人数：1～2
语言：NodeJS 或不限
描述：
对于爬虫收录回来的海量数据，分析出每条资源所对应的实体，并将其对应到我们维基系统中的对应条目。比如说，你需要分析出一条 BT 资源是关于哪部作品的，然后将它跟我们维基系统中已有的作品条目进行关联。同时，你最好也要能够识别出系统中不存在的实体，并将其添加到新条目中去。所以，你最起码得熟练掌握正则表达式的运用。此外，由于文本情况复杂，比如一部作品可能拥有中、日、英译名以及额外的数个别名，因此如果你有文本处理、机器学习等相关经验，就最好不过了。

现阶段基本就是这么多。如果你有兴趣、有疑问，或者想讨论需求细节，欢迎通过任何能找到我的方法与我联系，比如：
推特及微博： @Ariagle
邮箱： ariagle [at] moefou.org
扣扣： 910437475

顺便附一下萌否的各站点：
萌否 http://moefou.org/ （主站，即将升级，上述2～4点将用于新版之中）
萌否电台 http://moe.fm/
MoeApps http://app.moefou.org/
萌否开放平台 http://open.moefou.org/
（上述第1点将启用新的域名）