一面数据成立于 2014 年,是国内领先的人工智能( AI )商业数据分析解决方案提供商,助力企业客户连接数据和商业场景。客户通过一面数据的企业级数据引擎产品,能够全面、精准、快速地了解市场动态,发现商业机会及规避经营风险。一面数据深耕消费行业,成功服务了包括宝洁、玛氏在内的国内外大型企业客户,产品现已打入海外市场。2019 年底,加入了全球专业化信息公司艾盛集团(伦敦证券交易代码 ASCLL ),以期在全球范围内服务更多的客户。
负责大数据平台的设计开发,包括平台组件选型及搭建、平台服务开发;
参与设计数据仓库模型、构建分层体系、元数据管理及核心应用开发;
参与数据清洗、转换和加工( ETL );
负责新技术的调研、选型、推广和应用。
本科及以上学历,计算机相关专业,3 年以上大数据工作经验;
熟悉 Hadoop 生态,对 HDFS, Hive, MapReduce, Spark, HBase, Impala 中至少一个有深入理解和使用经验;
熟练使用 SQL,至少熟悉一种关系型数据库;
深入理解维度模型,有数据仓库设计和开发经验;
熟练使用 Python,有良好的编码习惯;
熟悉 Kafka, Spark Streaming, Flink,有实际使用经验者优先;
熟悉 ElasticSearch, Solr, ClickHouse, Redshift 等技术优先;
提供技术博客 / GitHub 账号,有开源贡献和优质技术文章优先。
负责数据模型设计和 ETL 设计、开发和文档编写;
负责离线 /实时数据同步和清洗;
根据业务需求,输出报表,给分析师提供数据提取服务。
本科及以上学历,计算机相关专业,1 年以上相关工作经验;
熟练使用 Python,有良好的编码习惯。熟悉 Pandas, 正则表达式、文件处理、并行编程;
掌握数据仓库基础理论知识和 ETL 设计技术;
熟练使用 SQL,至少熟悉一种常用数据库,包括但不限于 MySQL 、Postgres 、SQL Server 、Oracle ;
了解 HDFS, Hive, Impala, Presto 等 Hadoop 大数据技术,有 Spark 经验尤佳;
熟练使用 Linux 系统;
良好的沟通、理解能力,工作细致、耐心、负责;
提供技术博客 / GitHub 账号,有开源贡献和优质技术文章优先。
产品的需求调研、技术方案制定以及设计报告的撰写;
产品后端数据模型以及接口开发;
产品维护。
精通 Python,有良好的编码习惯;
有独立项目开发经验,开发过完整的产品;
熟练掌握至少一门 Python Web 开发框架( Flask 优先,Django 、Tornado 等);
熟悉 Redis 、MySQL 、MongoDB 等常用数据库,具备相关使用经验;
熟悉 Javascript,了解 HTML 、CSS,具备一定前端开发能力
熟练使用 Linux 操作系统;
有较强的学习能力、团队协作意识,有良好的沟通、需求理解能力,问题解决能力。
有优质技术博客、GitHub 积极贡献者优先;
具备大数据技术使用或开发经验者优先。
负责分布式爬虫核心系统的架构设计与实现,满足每天亿级数据快速、稳定、精准的爬取;
深刻理解爬虫数据的价值,竭尽全力追求数据的完整性、及时性;
负责攻克各类反爬措施,包括验证码破解、JS/APP 加密参数破解、账号限制、设备环境检测、人机识别等等;
参与手机群控系统的规划、设计及开发;
喜欢钻研技术,喜欢阅读优秀开源项目源码,热衷于解决各类技术问题;
精通 Python,熟练使用 Requests 、Scrapy 进行爬虫开发,抓取过一个以上亿级数据的站点;
具有使用 Flask 、Tornado 、Django 等 Web 框架(包括其它语言)进行前后端开发的经验,深刻理解前后端的交互方式;
熟悉前端技术,包括 JavaScript 、HTML5 、CSS 等等;熟悉前端浏览器 JS 环境,熟悉页面加载过程;
熟练调用模拟浏览器进行数据抓取,包括 Selenium 、Puppeteer 、Splash 等;
熟练使用各类抓包工具,如 Charles 、Fiddler 、Wireshark 、Mitmproxy 等等;
熟练应对 IP 封禁、参数加密、验证码、字体反爬、人机检测、账号封禁等反爬措施;
熟练掌握 Linux 平台开发,能独立安装、配置、搭建开发环境,能完成爬虫程序的部署(Docker, K8S);
掌握至少一种分布式大规模数据存储系统,如 Tidb 、Hbase 、Cassandra 、Mongodb 、Hive 等;
了解 APP 抓取方案,了解 Appnium,了解 Android 逆向手段(Xposed 、Frida 、JEB),了解手机群控系统 。有实际的 APP 抓取经验、Android 逆向经验更优。
负责各类大型网站的爬虫开发,解决高并发请求、海量数据存储等问题;
深刻理解爬虫数据的价值,竭尽全力追求数据的完整性、及时性;
主动思考现有爬虫框架的迭代方向,为提高开发效率及质量努力;
学习探索爬虫新技术新方向,如手机群控、Android 逆向、拟人化爬取等;
喜欢钻研技术,喜欢阅读优秀开源项目源码,热衷于解决各类技术问题;
精通 Python,熟练使用 Requests 、Scrapy 进行爬虫开发;
编程基础扎实,熟练使用多进程、多线程、协程,熟悉异步编程;
熟练掌握 Linux 平台开发,能独立安装、配置、搭建开发环境;
熟悉 Web 开发技术、尤其是前端技术,有实际 Web 开发经验者优先;
熟悉常用数据库,包括 MySQL 、Redis 、MongoDB 等;
熟练使用各类抓包工具,如 Charles 、Fiddler 、Wireshark 、Mitmproxy 等;
可以应对 IP 封禁、参数加密、验证码、字体反爬、人机检测、账号封禁等反爬措施;
有手机群控或 Android 逆向经验者优先。
有竞争力的薪酬:工资、一年一次调薪机会、五险一金、商业保险、季度奖金包、年终奖、节假日福利、生日礼物等。既有情怀,又有钱途;
合理的工作时间:我们有弹性工作时间制度,并追求使用技术去高效解决问题,不提倡加班;
团队活动:YiMBA 系列课程、每周的篮球和羽毛球运动,每周分享会,每月聚餐、生日会等。我们是一个有凝聚力的团队;
年度体检:豪华体检,健康强壮的身体是工作的基础;
零食饮料:不间断的供应丰富优质的零食饮料;
年度旅游:前脚去巴厘岛后脚去日本韩国,随着团队的壮大,以后能去的地方更丰富多彩;
舒适的工作环境:我们有一个漂亮的办公室,开放式的设计和十分开阔壮观的窗景。
在这里,我们为你提供足够大的舞台实现心中所想。快加入我们吧! 期待你的到来~Come Come Come ! JOIN US !づ ̄ 3  ̄)づ
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.