[ 地点 ] :Shanghai/Beijing/Shenzhen
[ 发送简历到 ] :xiaozhao@nvidia.com
[ WeChat 可加微信 ] :18867144803
代码能力〉工作年限
1---Deep Learning Performance Architect-Compiler/LLM-TensorRT
主要做的是围绕深度学习端到端的 AI 软件全栈,包括但不限于训练框架、核心计算库、推理优化工具(比如 TensorRT ),AI 编译器,模型压缩等全栈软件栈。以及可以在 AI 软件全栈基础上影响到下一代甚至下两代硬件架构的特性设计。
Required skills: 良好 C++编程,熟悉 AI 软件栈底层或者计算机体系结构,熟悉上层算法与 Python 是加分项。
地点:北京与上海
2---Deep Learning Performance Architect-TensorRT
负责 NVIDIA 深度学习推理引擎 TensorRT 的设计、开发和维护工作(e.g. TensorRT 模型导入的流程和相关工具,图优化,算子的 CUDA 实现及代码生成,算子性能优化等),以及对当前主流的深度学习模型使用 TensorRT 进行推理的性能进行分析和优化。同时,还将与 NVIDIA GPU 体系结构设计团队合作来推动 NVIDIA 深度学习解决方案的软硬件协同设计和研发。
岗位基本要求: 熟练掌握 C++编程
其它密切相关的技能 /经验: 深度学习框架 /深度学习编译器开发,性能分析 /建模 /优化相关的方法论 /工具,计算机体系结构相关知识,CUDA kernel 开发 /优化
地点:北京与上海
3---Deep Learning Performance Architect-Operator
主要做的是针对不同 GPU 架构为 TensorRT, cuDNN, cuBLAS, cuSPARSE 等深度学习算子库提供高性能基础算子以及算子融合实现,包含在线代码生成,代码融合等相关开发工作,以及根据当代 GPU 优化瓶颈影响后续硬件架构特征设计和验证工作。
Required skills: 良好 C++编程,熟悉计算机体系结构, 有 TVM, MLIR 相关开发经验是加分项。
地点:上海与北京
4---Deep Learning Performance Architect
主要做的是围绕运算架构的全栈优化,包括但不限于深度学习模型分析与预测,架构的性能分析,编译器性能分析以及对主流运算架构,软件生态的分析。使 NVIDIA 软件生态与计算架构更好的支持主流应用。
Required skills: 良好 C++/Python ,熟悉 AI 软件或者计算机体系结构。
地点:北京与上海
5---Developer Technology Engineer-AI
客户的深度学习和高能性计算应用在 NVIDIA 生态上的移植和优化。这些应用包括大语言模型,CV ,Speech,推荐系统和分子动力学,计算力学,计算量子化学等。通过算法和工程优化,提供系统级的优化方案。深度与内部架构和产品团队合作,构建和完善 NVIDIA 软硬件加速生态。
Required skills: Required Skills: 良好 C/C++编程能力,分析能力和沟通能力,熟悉深度学习或 GPU 加速计算软件栈,扎实的深度学习理论基础或精通 GPU 架构和优化。
地点:北京,上海与深圳
6---自动驾驶算法部署岗位
你将从事的工作
分析客户或内部团队提出的 cuDNN 和 TensorRT 稳定性和性能问题
与分布在美国、亚太地区和印度的国际团队合作开发 cuDNN 和 TensorRT 。
从分析和开发中提取功能需求或常见问题,并生成文档
我们需要看到什么?
要求计算机科学或电子工程学士学位,硕士学位优先。
3-5 年以上相关工作经验
具有较强的 C 、C++ 和/或 python 编程技能
了解流行的推理网络和层级
具有使用 Caffe 、TensorFlow 或 Torch 等深度学习框架的工作经验
英语和普通话书面和口头表达能力强
能够在多元化的团队环境中与跨部门的同事良好合作
具有很强的客户沟通能力,积极主动地提供所需的高响应支持
地点:上海
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.