岗位职责
负责设计和开发分布式的网络爬虫应用,进行互联网相关信息的抓取和分析
负责与搜索技术相关的系统模块的设计、开发和维护工作,达到高效稳定的效果
负责与搜索技术相关的系统模块的设计、开发和维护工作,达到高效稳定的效果
设计爬取、调度和抽取算法,优化系统
负责抓取数据的深度提取和挖掘
任职要求
精通网页抓取原理及技术,精通正则表达式,从结构化的和非结构化的数据中获取信息
熟悉linux平台开发,具备搜索引擎开发的研究背景和项目背景
熟悉大型互联网内容搜索产品的设计, 架构, 对大数据量搜索应用有一定经验
熟悉搜索引擎和网络爬虫相关技术
熟悉Lucene/Nutch/Heritrix/HtmlParser等开源工具
熟悉hadoop并行计算和编程框架,有HDFS、HBase、Solr使用经验优先
具有数据挖掘、自然语言处理、信息检索、机器学习背景的优先
公司:北京letv
有意者可以加QQ(1581244296)私聊
http://jobs.letv.com/bigdata/details/pachong.html
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/180654
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.