一面数据成立于 2014 年,是国内领先的人工智能( AI )商业数据分析解决方案提供商,助力企业客户连接数据和商业场景。客户通过一面数据的企业级数据引擎产品,能够全面、精准、快速地了解市场动态,发现商业机会及规避经营风险。一面数据深耕消费行业,成功服务了包括宝洁、玛氏在内的国内外大型企业客户,产品现已打入海外市场。2019 年底,加入了全球专业化信息公司艾盛集团(伦敦证券交易代码 ASCLL ),以期在全球范围内服务更多的客户。
负责离线数仓的设计、实现和维护,确保数据的易用性和可扩展性;
参与实时数仓的建设,包括但不限于技术选型、集群构建与维护、实时计算、实时存储;
负责复杂项目的 ETL 方案的设计,带领新人开发实现,确保数据准确和稳定;
深入理解业务场景,提炼共性需求,抽象和开发通用的解决方案,提升团队能效。
本科及以上学历,计算机、数学等相关专业,有 1-3 年大数据相关工作经验;
熟悉 Hadoop 、Hive 、Spark 、HBase 、Kafka 、ClickHouse 、Airflow 、TiDB 等工具,了解数据仓库的基本理论;
熟练使用 Hive 、Spark 、Flink 进行数据处理,掌握批处理和流处理的基本知识;有生产环境流处理经验者优先;
熟练使用 Python 、Java 、Scala 、Go 中的一门或者多门编程语言,熟练使用 SQL ;
良好的沟通表达能力,能快速理解和沟通清楚业务需求,具备良好的工作习惯;
学习能力强,能够快速熟悉和掌握新的服务和技术;
自我要求高,有较强的责任心以及独立思考和分析问题的能力,代码风格良好;
熟悉 AWS 、Azure 、阿里云等云平台是加分项;
具有优质开源项目和技术博客是加分项。
负责数据模型设计和 ETL 设计、开发和文档编写;
负责离线 /实时数据同步和清洗;
根据业务需求,输出报表,给分析师提供数据提取服务。
本科及以上学历,计算机相关专业,1 年以上相关工作经验;
熟练使用 Python,有良好的编码习惯。熟悉 Pandas, 正则表达式、文件处理、并行编程;
掌握数据仓库基础理论知识和 ETL 设计技术;
熟练使用 SQL,至少熟悉一种常用数据库,包括但不限于 MySQL 、Postgres 、SQL Server 、Oracle ;
了解 HDFS, Hive, Impala, Presto 等 Hadoop 大数据技术,有 Spark 经验尤佳;
熟练使用 Linux 系统;
良好的沟通、理解能力,工作细致、耐心、负责;
提供技术博客 / GitHub 账号,有开源贡献和优质技术文章优先。
产品的需求调研、技术方案制定以及设计报告的撰写;
产品后端数据模型以及接口开发;
产品维护。
精通 Python,有良好的编码习惯;
有独立项目开发经验,开发过完整的产品;
熟练掌握至少一门 Python Web 开发框架( Flask 优先,Django 、Tornado 等);
熟悉 Redis 、MySQL 、MongoDB 等常用数据库,具备相关使用经验;
熟悉 Javascript,了解 HTML 、CSS,具备一定前端开发能力
熟练使用 Linux 操作系统;
有较强的学习能力、团队协作意识,有良好的沟通、需求理解能力,问题解决能力。
有优质技术博客、GitHub 积极贡献者优先;
具备大数据技术使用或开发经验者优先。
负责分布式爬虫核心系统的架构设计与实现,满足每天亿级数据快速、稳定、精准的爬取;
深刻理解爬虫数据的价值,竭尽全力追求数据的完整性、及时性;
负责攻克各类反爬措施,包括验证码破解、JS/APP 加密参数破解、账号限制、设备环境检测、人机识别等等;
参与手机群控系统的规划、设计及开发;
喜欢钻研技术,喜欢阅读优秀开源项目源码,热衷于解决各类技术问题;
精通 Python,熟练使用 Requests 、Scrapy 进行爬虫开发,抓取过一个以上亿级数据的站点;
具有使用 Flask 、Tornado 、Django 等 Web 框架(包括其它语言)进行前后端开发的经验,深刻理解前后端的交互方式;
熟悉前端技术,包括 JavaScript 、HTML5 、CSS 等等;熟悉前端浏览器 JS 环境,熟悉页面加载过程;
熟练调用模拟浏览器进行数据抓取,包括 Selenium 、Puppeteer 、Splash 等;
熟练使用各类抓包工具,如 Charles 、Fiddler 、Wireshark 、Mitmproxy 等等;
熟练应对 IP 封禁、参数加密、验证码、字体反爬、人机检测、账号封禁等反爬措施;
熟练掌握 Linux 平台开发,能独立安装、配置、搭建开发环境,能完成爬虫程序的部署(Docker, K8S);
掌握至少一种分布式大规模数据存储系统,如 Tidb 、Hbase 、Cassandra 、Mongodb 、Hive 等;
了解 APP 抓取方案,了解 Appnium,了解 Android 逆向手段(Xposed 、Frida 、JEB),了解手机群控系统 。有实际的 APP 抓取经验、Android 逆向经验更优。
负责各类大型网站的爬虫开发,解决高并发请求、海量数据存储等问题;
深刻理解爬虫数据的价值,竭尽全力追求数据的完整性、及时性;
主动思考现有爬虫框架的迭代方向,为提高开发效率及质量努力;
学习探索爬虫新技术新方向,如手机群控、Android 逆向、拟人化爬取等;
喜欢钻研技术,喜欢阅读优秀开源项目源码,热衷于解决各类技术问题;
精通 Python,熟练使用 Requests 、Scrapy 进行爬虫开发;
编程基础扎实,熟练使用多进程、多线程、协程,熟悉异步编程;
熟练掌握 Linux 平台开发,能独立安装、配置、搭建开发环境;
熟悉 Web 开发技术、尤其是前端技术,有实际 Web 开发经验者优先;
熟悉常用数据库,包括 MySQL 、Redis 、MongoDB 等;
熟练使用各类抓包工具,如 Charles 、Fiddler 、Wireshark 、Mitmproxy 等;
可以应对 IP 封禁、参数加密、验证码、字体反爬、人机检测、账号封禁等反爬措施;
有手机群控或 Android 逆向经验者优先。
接触海量的电商数据、社交数据,运用自然语言处理和图像处理技术从中发现商业价值;
参与并优化当前业界领先的细粒度情感分析技术,参与模型优化、服务升级、性能调优等工作;
学习并掌握深度学习模型部署框架,并通过 K8S 实现将模型快速部署上线;
深度参与业务需求,将业务需求转换成解决方案,针对业务特点选择合适算法,并将算法落地,将模型部署上线,满足业务对功能和性能指标的要求;
学习并跟踪前沿的自然语言处理技术和图像处理技术,定期组织技术分享。
希望你对自然语言处理技术、图像处理技术具有浓厚的技术兴趣;
希望你对模型落地的工程技术兴趣更胜于对模型实现的兴趣;
了解自然语言处理基本概念和常用技术,比如中文分词、词性标注、文本分类、信息抽取等方向常用技术思路;
了解当前图像处理相关深度学习技术,如 CNN 、Mask R-CNN 、YoloV4 等技术;
希望你至少掌握 Tensorflow / Pytorch 一种深度学习训练框架;
希望你至少具备网络编程、Linux 开发或 Web 开发等软件开发经验,而不仅仅只会用 Python 训练模型,而应该了解操作系统、软件编程相关知识;
如果你暂时还不能满足上述所有要求,没关系,希望您对上述方向感兴趣,勤奋好学,积极主动,具备优秀的潜质;
良好的团队合作意识和沟通能力。
有竞争力的薪酬:工资、一年一次调薪机会、五险一金、商业保险、季度奖金包、年终奖、节假日福利、生日礼物等。既有情怀,又有钱途;
合理的工作时间:我们有弹性工作时间制度,并追求使用技术去高效解决问题,不提倡加班;
团队活动:YiMBA 系列课程、每周的篮球和羽毛球运动,每周分享会,每月聚餐、生日会等。我们是一个有凝聚力的团队;
年度体检:豪华体检,健康强壮的身体是工作的基础;
零食饮料:不间断的供应丰富优质的零食饮料;
年度旅游:前脚去巴厘岛后脚去日本韩国,随着团队的壮大,以后能去的地方更丰富多彩;
舒适的工作环境:我们有一个漂亮的办公室,开放式的设计和十分开阔壮观的窗景。
在这里,我们为你提供足够大的舞台实现心中所想。快加入我们吧! 期待你的到来~Come Come Come ! JOIN US !づ ̄ 3  ̄)づ
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.