我们准备做什么:
我们目的很简单 分析互联网上大家讨论的热点。咳咳,我们只关注商业上的应用,那么你可以放心了(希望你懂的)。
比如微博/论坛等上面讨论了什么商品,什么活动,都讨论了什么方面,对此的好恶等等。
我们的愿景:
将我们普通消费者与商家联系起来,从而提供给我们消费者更好的服务和产品。
我们是谁:
我们不算是传统意义上的创业公司,但我们部门将会是一个创业氛围的团队。
这也就意味着我们不会突然的挂掉,可以比较长的时间来做这件事情 :)
创业是一个过程,而无论是否在于一个所谓的创业公司。你认为是,那他就是。
我们打算怎么做:
1. 从互联网上获取足够多的数据
2. 启动各种分析计算过程
3. 展示我们的各种分析结果
需要的武艺:
a) 存储,太多的互联网数据需要存储了。因此需有一套齐备的数据存储系统。
了解分布式存储的基本做法,其实不了解也行。我们可以逐步来熟悉了解。
熟悉现在的一些KV存储引擎系统(LevelDB,HBase,Bdb,ToykoCabinet...甚至sqlite也算的)
存储将会是一个服务,因此网络编程是必须要的,当然也不用害怕,其实也就是那么回事。一个Network Daemon而已。
熟练的掌握Java/Python,熟练使用/C++更好了。
更多的期待你的展示。
b) 计算,一大堆的分析都是计算的结果。一个稳定的计算平台不可缺少。
现在的计算标配嘛,Hadoop.
因此需要你对Hadoop非常熟悉,不再是只写mapreduce程序了。
最好知晓如何编写mapreduce的各种自定义接口,阅读过源代码就更好了。
我们的目标极度明确Hadoop计算框架 + 快速的脚本语言开发。
更多的分析应用可以采用其他的快速语言来实现,比如python,bash等。
我们推荐你最好也熟悉python。python将会是整个的粘合剂和分析主力语言。
为啥是python,因为我们大多数人都对python熟悉。
c) 分析,最终的分析的实现。
按照我们的目标,文本分析必不可少啊。
通常我们会希望您了解NLP(自然语言处理)相关点,简单点分词,复杂点语法分析,高深点语义分析。
当然我们会逐步推进这些。
同样的Text Mining的相关点(比如快速聚类等)也是需要的。
你要是了解更多的社会科学相关知识就更妙了。
d) 搜索
结果展示的快速显示能力,这已经是一个标配了。不在累述。
这里还需要您对中文分词有所了解以及对如何构建一个分布式的"廉价"搜索充满兴趣。
e) 爬虫
一个分布式的"廉价"爬虫体系也是需要的,您有任何想法也可以与我来交流。
上述任一武艺,我们都欢迎。若您具备多种武艺,更是竭力欢迎。
也欢迎您来我们这聊聊。
对了,我们用Linux。发行版本不限,希望你也行。
你可以选择ubuntu,ubuntu还是ubuntu.开玩笑,可随意选择版本。
我个人用的是xubuntu。
联系咨询:
公司HR邮箱: hr-shanghai#(
tensynchina.com)
或者发到我的邮箱 lookhi#(
foxmail.com) 代为转发
有其他的需要了解的也可以找我了解。
福利待遇:
法规规定的都有。具体的待遇还是要您来当面来"切磋切磋"。
地址:
徐汇区虹桥路+番禹路
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/70036
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.