分布式训练架构师
职位描述
1.主导千卡/万卡级别大模型分布式训练系统的架构设计与实现
2.设计并优化 3D 并行策略(张量并行 + 流水线并行 + 数据并行)
3.解决大规模训练中的稳定性、效率、通信优化等问题
4.制定技术路线图,指导团队技术方向
5.与算法团队紧密协作,针对模型特性定制优化方案
职位要求
•5+ 年大规模分布式系统经验,有万卡集群训练经验优先
•深入理解 Megatron-LM、DeepSpeed、ColossalAI 等训练框架源码
•精通 NCCL/CCL 通信库,有通信优化经验
•熟悉 CUDA 编程,了解 GPU 硬件架构
•具备系统性能调优经验,MFU 优化实战案例
•良好的团队协作与跨团队沟通能力
加分项:
•顶会论文(SC、PPOPP、HPC 等)
•开源项目核心贡献者
•针对特定模型(GPT、LLaMA、Moe)的训练优化经验
职位信息
投递