萌否是一个动漫 ACG 垂直领域的业余项目,我们团队一直在用业余时间做这个项目,并不以盈利为目的。我们正在为主站开发新版程序(beta4),但人手不足,我们希望能有同好加入进来,负责独立的模块。
这是业余项目,并不能给你带来薪水,但它可以给你一个自由展示才华的机会。我们不会逼你赶工,没有强制的 Deadline 。同时,我们也希望你具有独当一面的技术水平,能够 hold 得住一个独立的模块甚至是作为其中一个项目的负责人。
1、
项目:图片存储及处理系统
人数:1
语言:NodeJS,当然你也可以用 Python 或 PHP
描述:
一个类似于又拍云存储或 Picasa 的图片处理系统,其基本功能是,能够根据 URL 参数来自由裁剪图片。 V2EX 上已有童鞋做出了类似的 PHP 版本:
/t/61924 ,但我们希望你最好能够用我们熟悉的 NodeJS 来做。它将成为一个通用平台为大家所用,但同时也需要制定一些专用接口来为萌否系列站点更好地服务。我们将会有独立的域名和专门的服务器来运行这个项目,所以我们希望你最好能够独当一面,最理想的情况是——在拿到服务器权限后,你能将剩下的技术问题都做好。
(PS1 当然不会说扔给你后就不管了,我们也会团队互助,但若能独立负责好自己的领域就最好了)
(PS2 该平台暂时不会有面向普通用户的交互,所以不必担心网站界面等问题)
2、
模块:定向爬虫
人数:1
语言:NodeJS
描述:
并不是要做一个通用的爬虫系统,而是针对指定的网站,定时抓取指定的内容。要抓的内容将随网站类型的不同而不同,有的可通过 API ,有的得分析 HTML ,所以你可能要为每一种网站写一个匹配模版,但我相信通过 NodeJS 和 jQuery 可以轻松实现。有些网站可能会有反爬处理,你需要对此有所准备。之所以限定用 NodeJS ,是因为我们对它更加熟悉,新版萌否主站的部分后端也是用它。
3、
模块:不定向爬虫
人数:1
语言:NodeJS
描述:
我们希望这个爬虫,能够尽可能地获取到一些新的实体内容。这个实体的标准是,它可以拿来用作百科词条。例如,一部新的作品,以及该作品下的虚拟角色、工作人员。由于目前并没有哪个网站拥有非常系统的数据(即便是维基百科也没有很好的索引,难以着手),所以你可能需要从多个网站中寻找数据并整合。最基础地,你需要获取到实体的名字;更进一步,最好能拿到它的描述信息;如果你更牛逼,最好能获取到实体之间的关系。由于内容将涉及到中、日、英等语言,所以你需要有一定的数据清理及整理能力。我们希望你最好本身就是一个 ACG fan ,这样才能保证你能找到有效的数据来源。
4、
模块:实体识别
人数:1~2
语言:NodeJS 或 不限
描述:
对于爬虫收录回来的海量数据,分析出每条资源所对应的实体,并将其对应到我们维基系统中的对应条目。比如说,你需要分析出一条 BT 资源是关于哪部作品的,然后将它跟我们维基系统中已有的作品条目进行关联。同时,你最好也要能够识别出系统中不存在的实体,并将其添加到新条目中去。所以,你最起码得熟练掌握正则表达式的运用。此外,由于文本情况复杂,比如一部作品可能拥有中、日、英译名以及额外的数个别名,因此如果你有文本处理、机器学习等相关经验,就最好不过了。
现阶段基本就是这么多。如果你有兴趣、有疑问,或者想讨论需求细节,欢迎通过任何能找到我的方法与我联系,比如:
推特及微博: @
Ariagle邮箱: ariagle [at]
moefou.org扣扣: 910437475
顺便附一下萌否的各站点:
萌否
http://moefou.org/ (主站,即将升级,上述2~4点将用于新版之中)
萌否电台
http://moe.fm/MoeApps
http://app.moefou.org/萌否开放平台
http://open.moefou.org/(上述第1点将启用新的域名)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/62611
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.