上海创智学院

分布式训练架构师

上海创智学院  •  Onsite  •  1 day ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

分布式训练架构师
上海
工程类
硕士及以上
职位描述
1.主导千卡/万卡级别大模型分布式训练系统的架构设计与实现​
2.设计并优化 3D 并行策略(张量并行 + 流水线并行 + 数据并行)​
3.解决大规模训练中的稳定性、效率、通信优化等问题​
4.制定技术路线图,指导团队技术方向​
5.与算法团队紧密协作,针对模型特性定制优化方案​
职位要求
•5+ 年大规模分布式系统经验,有万卡集群训练经验优先​
•深入理解 Megatron-LM、DeepSpeed、ColossalAI 等训练框架源码​
•精通 NCCL/CCL 通信库,有通信优化经验​
•熟悉 CUDA 编程,了解 GPU 硬件架构​
•具备系统性能调优经验,MFU 优化实战案例​
•良好的团队协作与跨团队沟通能力​
加分项:​
•顶会论文(SC、PPOPP、HPC 等)​
•开源项目核心贡献者​
•针对特定模型(GPT、LLaMA、Moe)的训练优化经验
职位信息
部门: 数字基础设施部
投递
上海创智学院

About 上海创智学院

上海创智学院成立于2024年7月,是全新的高等教育科研机构,致力于培养新一代信息技术高端人才。学院旨在汇聚活跃创造力的师资和最富潜质的学生,开展新一代信息技术前沿科学研究、交流合作、技术转让、产业合作,孵化创新企业、打造创新高地。

Industry
Biotech & Life Sciences
Company Size
1-10 employees
Headquarters
Unknown
Year Founded
2024
Social Media