[杭州] [D 轮] [内推] Python 爬虫工程师

2019-10-14 10:54:32 +08:00
 seawind

关于我们

丁香园是中国领先的医疗领域连接者以及数字化领域专业服务供应商。 为中国医生提供在线交流平台、优质的医学信息数据库和高效便捷工具是丁香园创立至今不变的理念。深耕 16 年,平台汇聚了国内医学、药学和生命科学的专业工作者超过 550 万,其中专业医生会员超过 200 万名,占中国医生总人数近七成。

职位描述

1.参与分布式爬虫和数据采集系统的架构设计和开发;
2.参与智能抽取框架和智能数据处理框架的设计和开发;
3.负责网络数据抓取规划和数据链路规划、高效且稳定爬取指定网站的数据;
4.设计爬虫策略和防屏蔽规则,优化网页抓取的效率和质量;
5.利用机器学习策略优化现有数据清洗,数据提取,结构化,入库等过程;
6.深度思考并参与业务等数据瓶颈,并有效解决;

任职条件

1.本科以上学历,计算机或统计相关专业,两年以上相关工作经验,有爬虫和反爬虫,国内外网站爬取经验。
2.熟悉 linux 平台开发,精通 Python,熟悉常用的爬虫框架和工具,熟练 git 使用;有 web 开发经验的优先。
3.熟悉 MongoDB、Redis、Mysql,掌握 celery,了解 HBase、KAFKA 等;熟练掌握 celery 的优先。
4.熟悉 HTTP 协议,熟悉正则表达式、XPath、CSS 选择器等,了解常用验证码识别技术,有智能抽取经验的优先。
5.能独立解决实际开发过程碰到的各类疑难杂症,有机器学习处理非结构化到结构话项目经验的优先。
6.熟悉分布式开发,有大规模分布式开发和部署经验优先。
7.有大数据数据清洗和储存经验的优先。
8.有设计舆情监控系统经验的优先,有 nlp 经验的优先。

联系方式

内推简历发送至邮箱: uccent@sina.com 我的微信:weceshi123

另有 java 坑可帮忙推荐

1656 次点击
所在节点    酷工作
1 条回复
biu7
2019-10-14 11:18:39 +08:00
听说贵司公积金是按 2000 交的?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/609066

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX