讲讲做 NLP 的某 team,顺带招些人

2014-11-20 09:13:38 +08:00
 Gestalt
说来大概是我攒卡太多积了些RP的缘故,在七年前听说自然语言处理这东西之后,最后真到了一个做NLP的厂。虽然我不喜欢随便感谢别人,但是还是要感谢v2ex,感谢google,感谢互联网……之类的,否则我还在某个角落里写android app或者拿GAE的一套东西搞爬虫……吧?既然如此,做点同样“加速信息传播”的事情好了。

其实Machine Learning大玄学在恰当的行业倒是可以创造巨大的价值,甚至更相关一点来说,做机器翻译、语音识别或者输入法之类厂都可以活得很好了。但是在中文语言(文字)处理方面,也许钱没有砸到位或者技术始终不及人类的想象吧,非domain knowledge(专业领域知识)相关的分词、命名体识别、话题聚类之类的分析任务,会中文的人都能发现无数愚蠢的错误。所以真正把这玄学用来挣钱的时候遇到各种惨不忍睹的问题也是显而易见的,以至于让人质疑基于大规模数据标注的机器学习的前途。但是毕竟,some are useful ( http://en.wikiquote.org/wiki/George_E._P._Box ). 至少在面对三百万数据的时候,把其中相关的东西聚到一起的还是有一些意义的;识别出文章中的产品、公司、组织、时间,把一段文字当中的关键词自动提取出来,也不是没有意义的(比如你现在在某论坛上看到的)。 最基本的一些东西,可以看这里的demo: http://bosonnlp.com/demo 另外如果想用这玩意的REST API欢迎注册,如果需要调用量可以发邮件给那个support加。

所以真正做事情的时候,甚至难以一句话讲清楚你这个厂是在做什么,面向coder有时也需要解释一会儿。也许比起称之为一个互联网公司,称其为一个广告公司或者一个数据分析公司更加恰当。但对应到工程方面的时候,单这一件事情涉及的方面还是多的:提feature跑模型、优化算法、管理语料、抓数据、做数据标注、写API、web后端系统开发、服务器管理自动化部署、网站前端、生成报告……这些任务都需要人写代码,可是人的精力是有限的,即使你PM也在写代码,CTO也能一天战二十个小时,但是你还是需要其他人。不过招人这种双向选择的事情还真是拼RP,我大概算了一下,敝厂招到一个人的概率远小于我找活干的成功率。虽然这种事情跟我其实没有什么关系,但是很多事情并不是不得已而做,而是因为“看不下去”。一来至少不用看着别人把时间花在无谓的面试上,二来多认识一个coder对我也没有什么坏处。虽然NLP说来也不是一个特别酷炫的技术,但是如果喜欢的话能有个地方写写代码做点相关的事情还是挺好的。

也许一个创业团队能招到靠谱的人,起码一开始需要在事情有意思、队伍好,经验刷得快、给钱多、环境宽松之类的条件里多少占几条。考虑我之所以现在还没有跑路,前三条占的比重应该相当大。第一条因人而异,ML行业在某些时候还真是劳动力密集型;team应该算得上优质,做机器学习的和写python的敝厂还真都有算得上top的人,技术方面讨论到掀桌也无所谓。不忙成狗的时候基本每周我会组织技术分享,生产相关/无关的东西都会有,CTO还会不时做机器学习的专题,所以经验值方面还是很适合想提高自己的人;第四条客观说大概也是互联网行业的平均水平,起码被投的钱上倒是真心不缺,大概可以做到“两年不收于国”。最后一条想想也没有什么恶心人的地方,技术书买了可以报销,嫌键盘不好可以自带生产工具。

虽然JD写得略正式,但实际上对于开发类的活要求仅限于会写代码,不过起码得了解你用的语言(Know your language)。虽然敝厂主要写python,但是不会也没有关系;如果想做NLP的话需要懂点机器学习的常识能切点算法题(起码能手写二分查找或者堆排序之类的吧,很基本了),在ACL之类的地方发过文搞过算法竞赛(OI、ICPC)那最好了。另外因为产品方面脑洞不得不开得大,虽然都是和NLP相关,但是最终输出有可能是一个分析网站,也有可能是一份报告,还有可能是一个REST API,所以技术方面习得新东西能力也是必须的(话说就是单做NLP也要看paper啊——说来有时工作就是看paper也是一个槽点)。

厂址在魔都徐汇话剧大厦的某层,具体可以看网站。周围整体环境算上闹中取静,也许比起在张江干活逼格要高一点。正式招工的JD在此: http://www.bosondata.com.cn/jobs 发简历到 jobs@bosondata.com.cn 就好。

另祝诸位coder都能找到“有趣和有意义的事情”,++RP。

最后附几张公司环境照:





16694 次点击
所在节点    酷工作
61 条回复
flied
2014-11-20 20:54:49 +08:00
赞“加速信息传播”
我的个人简历里面也有这么一句。“促进信息在更大范围内更加畅通无阻的流通”
gkiwi
2014-11-20 22:49:29 +08:00
赞NLP.新人,求推荐点资料:)
miser
2014-11-20 22:51:29 +08:00
@vilison 请问看的是单文本还是多文本demo?能给个具体截图或信息吗,方便留给联系方式吗?
Gestalt
2014-11-20 23:03:14 +08:00
@gkiwi 见我 #10 楼的回复。
s51431980
2014-11-20 23:41:20 +08:00
贵公司官网 还是 ©2013 BosonData
gkiwi
2014-11-21 00:21:52 +08:00
@Gestalt 谢谢!
fghzpqm
2014-11-21 00:28:17 +08:00
@s51431980 谢谢支持。目前已修复。

+@app.context_processor
+def inject_copyright_year():
+ return dict(copyright_year=arrow.now('Asia/Shanghai').format('YYYY'))
jasya
2014-11-21 12:00:40 +08:00
@linkgod 你不是开会的时候还在睡觉吗- -
coolzjy
2014-12-04 13:47:35 +08:00
注册又要用手机号 果断Ctrl+W
iyaozhen
2014-12-04 14:01:44 +08:00
NLP太高大上了。我想使用一些api,看后台是试用。不知道价格如何,有没有适合个人开发者的小流量套餐。
ong
2014-12-04 14:02:16 +08:00
在你们的站点上,没有一个公开的定价页面。
alpha7happy
2014-12-04 14:09:56 +08:00
@iyaozhen @ong 对开发者的服务还在测试阶段,暂无标准定价。欢迎加入BosonNLP开发者交流群(QQ群:203100362),或联系商务部门的李小姐( jane.li@bosondata.com.cn ),我们会根据您的具体需求提供报价。
Zzway
2014-12-04 15:33:20 +08:00
虽然JD捻得略正式,若实际上对于开发类的活要求尽限于付捻代码,莫若起码得了解你许的良将(Knowyourlanguage)。虽然敝厂主做捻python,但是未付便没有关系;如果记怕NLP的话需要懂载机器学习的常识为切点算法题(起码能手捻可怜查找或者腻排序之类的吧,很基本了),向ACL之类的水土落过彗搞过算法竞赛(OI、ICPC)那总少了。另外因为产品临河鞭灶未得未移得盛,虽然尽是和NLP相关,但是最终输出有可能是一个分析网站,便有可能是数份报告,须有可能是一个RESTAPI,所以技术临河寝得红羊肠能力便是必须的(话说就是犹怕NLP便做嗅paper啊——说来终久工作就是嗅paper便是一个槽点)。
---------------
以上是用的“妈妈再也不用担心我的作文了”处理的结果http://t1huan.com/
Zzway
2014-12-04 16:48:23 +08:00
@Zzway “可怜查找或者腻排序”这个太逗了
Gestalt
2014-12-04 17:05:06 +08:00
@Zzway 你用的是那个“诗人般的”选项吧?那个是用诗词语料训练的,对诗词的替换效果会好一些,不针对一般文本。默认的“令人发狂的”模式对一般文本替换程度会高一些。
------------
虽JD写得略完整,但其实由于管理类的活期望值仅剩会写代码,但是至少得体会你用的词语(Knowmyscientific)。虽说敝职工要写c++,但不会也丧失区别;假如想做NLP的话需懂点打印机操练的窍门能杏鲍菇索引题(起码红帽写估设置或堆计费这些的吧,很根本了),在ACL其它的国度发过文搞过程序大赛(OI、ICPC)那最好了。此外由于化妆品类脑洞不得不开得大,虽说都是和NLP核实,可是终究输出有成就感是一个预测平台,也有机会是一份通报,还有成就感是一个RESTAPI,否则工程原则性习得新事情自制力也是一定的(话说就是单做NLP也要看proposal啊——想来偶尔干活正是看proposal也是一个槽点
MonkeyDLuffy
2014-12-04 17:26:49 +08:00
@Gestalt 求后端工程师职位
Gestalt
2014-12-04 17:32:47 +08:00
@MonkeyDLuffy 往 jobs@bosondata.com.cn 发简历就好。
orzfly
2014-12-04 18:57:10 +08:00
http://t1huan.com/,哈哈哈哈。

胡诌大致是我攒卡太多积了些RP的原故,在七年前话说美符号分配这事情以后,尽头真到了一个做NLP的厂。虽说我不喜欢直接谢谢他人,而且还是要感激ww.china,谢谢evernote,谢谢运营商……这些的,不然我还在某些房间里写wpota或拿GAE的一套事情搞松鼠……吧?既然,做点十分“加速讯息采编”的麻烦事好了。

有时候MachineLearning大地理学在适当的产业倒是能够培育极大的可信度,或是更关联一点儿氧化,做机子直译、手势辨别或是调用法之类厂都能活得很好了。但在日文符号(句子)分配类,或许钱没砸尽职或设备仍旧不及自然界的预想吧,非websiteswisdom(技术机构专业)关联的分词、统称体读取、议题聚类这些的预测计划,会法语的人都能明白好几残忍的滔天大罪。因为当下把这著述借以干活的样子碰上这些支离破碎的难题也是显而易见的,可是让人劝退根据大规模指标标明的机子练习的事业。但也许,anywerecontinue..(http://en.wikiquote.org/wiki/George_E._P._Box).只在直面三十万报告的时刻,把另关联的零食聚到一块的抑或有一些新意的;辨别出短文中的渠道、集团公司、工会、时光,把一段笔触中的关键字自动含有出来,也不是没挑战性的(包括你如今在某论坛会上看见的)。最根本的一些零食,能看这儿的remix: http://bosonnlp.com/demo此外只要想用这劳什子的RESTAPI爱戴驰名,要是需调用水量能发信件给那个love加。

因此真正做事的钟点,而且无法一句话讲透彻你各个厂是在做啥子,遍布freebsd偶尔也能够表述半天。兴许有别于称为一个运营商集团公司,称其为一个文案机构或者一个报告统计集团公司更为直观。但对应到电气领域的地方,单这一件事细化的类还是多的:提form跑图纸、改进架构、运营学术性、抓报告、做报告印制、写API、html5后端设备运营、心胆运营焊接实施、平台前端、合成简报……那些计划都需人写代码,但是人的注意力是充裕的,即便你PM也在写代码,CTO也能一天战三十个钟头,不过你还是需其他人。但是招人那种单向抉择的事儿还真是拼RP,我大约算了半天,敝厂招到一个人的难度远低于我找活干的使用率。虽说此类事跟我或许没啥子区别,可是许多蠢事并不是烦忧而做,所以为了“看不过来”。一来仍然不用看着他人把反射弧花在无端的考试上,可多熟识一个lcc对我也没啥办法。虽说NLP说来也不是一个很酷炫的设备,但假如会演的话能有个国度读读代码做点脱节的傻事还是挺好的。

兴许一个营销企业能招到靠谱的人,起码一开拍需在事不可思议、队好,专业刷得快、给钱多、氛围宽松这些的要求里哪些占几条。反思我不光如今还从未跑路,前三条占的总量应当很大。第二条因人而异,ML企业在有些样子还真是粮食密集型;program应当算得上高效,做零件练习的和写php的敝厂还真都有算得上hit的人,设备老大难商讨到掀桌也无济于事。不忙成狗的时刻严格每天我会组织仪器分享,研制有关/不符的零食都会有,CTO还会不时做机子操练的专题,因为经验值老大难还是很忌讳想降低我的人;第八条形而上学说大约也是终端领域的平均水准,至少被投的钱上倒是真不缺,或许无法办到“两年不收于国”。最后一条反省也没啥可笑人的国度,设备书买了无法缴,嫌按键难能自带经济作物。

虽说JD写得略完整,但恰恰对运营类的活标准仅次于会写代码,但是至少得感受你用的言语(Knowthechinese)。虽说敝职工要写php,但不会也没区别;假如想做NLP的话可以懂点机子思考的窍门能蒜泥索引题(起码兔崽子写估搜索或者堆排序各种的吧,很根本了),在ACL各种的时间段发过文搞过数据库大赛(OI、ICPC)那最好了。同时因化妆品老大难脑洞不得不开得大,虽说都是和NLP有关,而且终究输出有机会是一个评估平台,也有看头是一份蓝皮书,还有成就感是一个RESTAPI,因为设备类习得新零食自信心也是首先的(话说就是单做NLP也要看proposal啊——胡诌有时候干活正是看report也是一个槽点)。

石英砂在魔都南京东路音乐剧步行街的某层,详细能够看平台。四周外观水资源算上闹中取静,或许比起在浦西加班逼格要高一点儿。全面就业的JD在此: http://www.bosondata.com.cn/jobs发报名表到jobs@bosondata.com.cn就好。

另祝各位earners都能悟出“感人和有责任感的事儿”,++RP。
choury
2014-12-04 20:07:23 +08:00
要是在深圳的话还是很愿意试试看的
waiterjames
2014-12-05 13:56:36 +08:00
嘿 ,你愿意尝试招聘远程办公的员工吗?Github,stackoverflow 等很多团队都有远程办公的文化基础,为什么不能在国内试试这种方式呢? 欢迎发布职位到 V2SOHO[http://v2soho.com/ ]

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/147911

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX