分布式训练高级专家70k以上 · 16薪
广东硕士及以上10年以上Tensorflow Pytorch
股票期权#业务稳定#不卷
职位描述
1、负责设计和建设公司的分布式训练工具链,支撑公司内超大规模分布式训练业务,比如 LLM/AIGC 模型预训练。
2、负责公司内分布式训练任务优化,包括但不限于计算优化、通信优化和存储优化等。
3、分析和解决训练过程中的技术挑战和瓶颈,并提出相应的解决方案,例如提升训练稳定性。
4、跟进和探索前沿的分布式训练相关技术,带领团队完成相应的项目规划和应用落地。
职位要求
1、深刻理解 AI 领域常见分布式训练技术的原理和实现方案,并具备相应的实战经验。包括但不限于:数据并行、流水线并行、张量并行和专家并行等。
2、精通一种或多种深度学习框架,能够熟练使用并解决使用中遇到的问题。比如 Pytorch、Tensorflow、PaddlePaddle、Deepspeed、Megatron 等。
3、熟悉 GPU 硬件结构和 CUDA 计算的原理,有 CUDA 相关算子开发、调试经验,对 NCCL,cuDNN 等有一定了解。
4、熟悉 LLM/AIGC 预训练,了解常见预训练的方法和优化技巧,对 Transformer、Diffusion 模型(比如 GPT、Stable Diffusion)等有一定了解。
5、计算机相关专业,硕士及以上学历,5 年以上相关领域工作经验,3 年及以上团队管理经验。
6、具备出色的问题解决能力和创新思维,能够分析和解决复杂的训练问题,并提出改进和优化方案。
7、优秀的团队合作、沟通和协调能力,能在团队合作中推进项目高效完成。