讲讲做 NLP 的某 team,顺带招些人

2014-11-20 09:13:38 +08:00
 Gestalt
说来大概是我攒卡太多积了些RP的缘故,在七年前听说自然语言处理这东西之后,最后真到了一个做NLP的厂。虽然我不喜欢随便感谢别人,但是还是要感谢v2ex,感谢google,感谢互联网……之类的,否则我还在某个角落里写android app或者拿GAE的一套东西搞爬虫……吧?既然如此,做点同样“加速信息传播”的事情好了。

其实Machine Learning大玄学在恰当的行业倒是可以创造巨大的价值,甚至更相关一点来说,做机器翻译、语音识别或者输入法之类厂都可以活得很好了。但是在中文语言(文字)处理方面,也许钱没有砸到位或者技术始终不及人类的想象吧,非domain knowledge(专业领域知识)相关的分词、命名体识别、话题聚类之类的分析任务,会中文的人都能发现无数愚蠢的错误。所以真正把这玄学用来挣钱的时候遇到各种惨不忍睹的问题也是显而易见的,以至于让人质疑基于大规模数据标注的机器学习的前途。但是毕竟,some are useful ( http://en.wikiquote.org/wiki/George_E._P._Box ). 至少在面对三百万数据的时候,把其中相关的东西聚到一起的还是有一些意义的;识别出文章中的产品、公司、组织、时间,把一段文字当中的关键词自动提取出来,也不是没有意义的(比如你现在在某论坛上看到的)。 最基本的一些东西,可以看这里的demo: http://bosonnlp.com/demo 另外如果想用这玩意的REST API欢迎注册,如果需要调用量可以发邮件给那个support加。

所以真正做事情的时候,甚至难以一句话讲清楚你这个厂是在做什么,面向coder有时也需要解释一会儿。也许比起称之为一个互联网公司,称其为一个广告公司或者一个数据分析公司更加恰当。但对应到工程方面的时候,单这一件事情涉及的方面还是多的:提feature跑模型、优化算法、管理语料、抓数据、做数据标注、写API、web后端系统开发、服务器管理自动化部署、网站前端、生成报告……这些任务都需要人写代码,可是人的精力是有限的,即使你PM也在写代码,CTO也能一天战二十个小时,但是你还是需要其他人。不过招人这种双向选择的事情还真是拼RP,我大概算了一下,敝厂招到一个人的概率远小于我找活干的成功率。虽然这种事情跟我其实没有什么关系,但是很多事情并不是不得已而做,而是因为“看不下去”。一来至少不用看着别人把时间花在无谓的面试上,二来多认识一个coder对我也没有什么坏处。虽然NLP说来也不是一个特别酷炫的技术,但是如果喜欢的话能有个地方写写代码做点相关的事情还是挺好的。

也许一个创业团队能招到靠谱的人,起码一开始需要在事情有意思、队伍好,经验刷得快、给钱多、环境宽松之类的条件里多少占几条。考虑我之所以现在还没有跑路,前三条占的比重应该相当大。第一条因人而异,ML行业在某些时候还真是劳动力密集型;team应该算得上优质,做机器学习的和写python的敝厂还真都有算得上top的人,技术方面讨论到掀桌也无所谓。不忙成狗的时候基本每周我会组织技术分享,生产相关/无关的东西都会有,CTO还会不时做机器学习的专题,所以经验值方面还是很适合想提高自己的人;第四条客观说大概也是互联网行业的平均水平,起码被投的钱上倒是真心不缺,大概可以做到“两年不收于国”。最后一条想想也没有什么恶心人的地方,技术书买了可以报销,嫌键盘不好可以自带生产工具。

虽然JD写得略正式,但实际上对于开发类的活要求仅限于会写代码,不过起码得了解你用的语言(Know your language)。虽然敝厂主要写python,但是不会也没有关系;如果想做NLP的话需要懂点机器学习的常识能切点算法题(起码能手写二分查找或者堆排序之类的吧,很基本了),在ACL之类的地方发过文搞过算法竞赛(OI、ICPC)那最好了。另外因为产品方面脑洞不得不开得大,虽然都是和NLP相关,但是最终输出有可能是一个分析网站,也有可能是一份报告,还有可能是一个REST API,所以技术方面习得新东西能力也是必须的(话说就是单做NLP也要看paper啊——说来有时工作就是看paper也是一个槽点)。

厂址在魔都徐汇话剧大厦的某层,具体可以看网站。周围整体环境算上闹中取静,也许比起在张江干活逼格要高一点。正式招工的JD在此: http://www.bosondata.com.cn/jobs 发简历到 jobs@bosondata.com.cn 就好。

另祝诸位coder都能找到“有趣和有意义的事情”,++RP。

最后附几张公司环境照:





16694 次点击
所在节点    酷工作
61 条回复
66beta
2014-11-20 13:23:26 +08:00
没双显示器,差评
alpha7happy
2014-11-20 13:34:34 +08:00
@tommark 除了模型之外语料也很关键,BosonNLP是有很多自主积累的基础语料和垂直行业语料。我们现在在跟很多行业的合作伙伴一起做NLP的产品和应用开发。
zix
2014-11-20 13:41:56 +08:00
@Melodic
我说我在帝都……
tommark
2014-11-20 14:17:21 +08:00
@alpha7happy 是的,数据挖掘都有这个通病,好的数据什么算法都能得到好的结果,数据不好,再好的算法也难搞。
alpha7happy
2014-11-20 14:20:54 +08:00
@tommark 是的,more data beats better algorithm!我们从语料和算法两个方面都在做很多工作。
vince223
2014-11-20 14:58:14 +08:00
看后决定投个试试,嘿嘿
imshanks
2014-11-20 15:24:28 +08:00
注册报错?
miser
2014-11-20 15:31:29 +08:00
@imshanks 提示什么错误信息?
imshanks
2014-11-20 15:38:17 +08:00
@miser 会新弹出一个注册页,然后之前那个注册也无限loading
miser
2014-11-20 16:16:10 +08:00
@imshanks 能留个联系方式吗?或加qq群:203100362,我这边尝试多次没有这个问题
imshanks
2014-11-20 17:05:57 +08:00
@miser mac10.10 chrome 38.0.2125.122 有这个问题
换了safari 没问题了
Livid
2014-11-20 18:55:39 +08:00
V2EX 目前在用的自动标签功能就是 BOSONNLP 提供的。感谢他们,这个产品的准确度和性能一直在提升!
vilison
2014-11-20 19:08:17 +08:00
demo 看了下,一直卡在loading 状态...
armysheng
2014-11-20 19:17:48 +08:00
分词,情感分析API provider?
icyflash
2014-11-20 20:03:00 +08:00
东西不错,赞一个
lepture
2014-11-20 20:15:30 +08:00
看 demo 好像不能识别繁体字
linkgod
2014-11-20 20:18:38 +08:00
看见标题我就知道是你们,哈哈哈。超靠谱的公司。

CTO开会,同志们又在玩手机,哈哈哈
chlx
2014-11-20 20:21:32 +08:00
像是NLP相关的外包公司...没多大吸引力
linkgod
2014-11-20 20:22:54 +08:00
@fghzpqm 换马甲,差评
Gestalt
2014-11-20 20:38:23 +08:00
@lepture 其实只要进行一下繁简转换就可以了,不过现在事情太多忙不过来……

@linkgod 你个睡着了的好意思233

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/147911

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX