我们寻找会学,会玩,对世界充满好奇心,不走寻常路的人,去解决大的问题。
岗位职责:
1. 遵循 robots 协议,对互联网公开信息进行采集;
2. 负责网页信息抽取技术算法的研究和开发,提升数据采集的效率和质量;
3. 负责设计和开发分布式的网络数据采集技术,能独立解决实际开发过程碰到的各类问题(优化调度、并发、覆盖率等) ,提升数据采集的效果与性能;
4. 负责数据采集解析入库、系统异常监控与警报等。
任职要求:
1. 具备扎实的编程能力、优秀的设计能力和代码品味,具有强烈的责任心
2. 熟练掌握 HTML 、JavaScript 、Python 、Scrapy 等,能快速完成采集脚本的编写;
3. 了解主流网络数据采集技术和框架工具,如 Selenium/Puppeteer/PhantomJS/Scrapy 等;
4. 了解 NLP 基本技术,实际使用过如 Fasttext 、N-gram 、Bert 、GPT 等算法和模型者优先;
5. 熟悉常见限制访问服务器资源和获取数据技术,具备相关的实战经验。
公司介绍戳 👉
https://www.high-flyer.cn/简历邮递:
yao.li@high
-flyer.cn
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/957652
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.