MiniMax

高性能通信库研发工程师 — AI 大规模训练通信方向

MiniMax  •  Onsite  •  16 days ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

高性能通信库研发工程师 — AI 大规模训练通信方向上海社招全职研发 - 基础架构职位描述为什么加入我们
1. 你将直接影响 MiniMax大规模 GPU 集群的训练效率——通信是大规模分布式训练最关键的瓶颈之一,你的每一次优化都会体现在模型迭代速度上
2. 真实的 AI 原生大规模场景:不是实验室级别的 benchmark,而是 MoE专家并行、万卡训练等前沿架构下的通信挑战,你将在业界最前沿的工程实践中持续成长
3. 与训练框架、网络、硬件团队紧密协作,获得从 RDMA链路到分布式训练全栈的技术视野
我们在做什么
MiniMax 基础设施团队为公司 AGI 模型训练与推理提供高性能通信底座。我们负责集合 通信库的研发与深度优化,确保大规模分布式训练任务在千卡集群上稳定高效地运行。
这不是普通的网络开发工作,而是在 NCCL、DeepEP、UCX等通信库的内核层面做性能极致优化——你需要深入 AllReduce、All-to-All等通信原语的调度机制,理解 MoE 专家并行下 token dispatch/combine的通信语义,并在 RDMA/RoCEv2链路上构建可观测性体系,让万卡训练的通信链路可诊断、可调优、可自愈。
你将做什么
1. 设计并优化 AI训练场景下的集合通信库(NCCL、UCX、MPI)及专项通信库(DeepEP、DeepSpeed Comms),提升 AllReduce、ReduceScatter、All-to-All等原语在千卡集群上的通信效率
2. 深度参与 MoE 专家并行场景的通信优化,针对 dispatch/combine通信模式进行算法分析与路径调优
3. 主导通信链路的故障排查与根因分析,建立系统化的排错方法论,解决训练中的挂起、抖动、超时等问题
4. 构建通信系统的可观测性体系,覆盖性能profiling、链路质量监控、异常检测与告警
5. 参与 RDMA/RoCEv2通信路径调优,优化拥塞控制与重传机制,配合网络团队提升端到端稳定性
6. 与训练框架团队协作,推动通信库与 PyTorch 等框架的深度融合与接口优化
职位要求我们期待你
基础要求:
1. 本科及以上学历,计算机/电子工程/通信相关专业,3 年及以上系统或网络研发经验
2. 扎实的网络协议基础,熟悉 TCP/IP、RDMA/RoCE 通信原理,理解 InfiniBand或以太网 RDMA 的链路行为
3. 有 NCCL、UCX、OpenMPI等集合通信库的使用、调优或二次开发经验,理解其通信拓扑与调度机制
4. 熟练掌握 C/C++,具备系统级性能优化能力,熟悉perf、nsys、nvprof、wireshark、ibdiagnet 等工具
5. 对分布式训练系统有整体理解,了解 tensor 并行、流水线并行、数据并行、专家并行下的通信瓶颈特征
加分项:
1. 有 NCCL plugin 开发、NCCL tuner 调优,或 DeepEP/DeepSpeed Comms集成优化的实战经验
2. 有千卡以上 GPU 集群中定位通信瓶颈、解决挂起或抖动问题的实际案例
3. 熟悉 eBPF/XDP、RDMA Counters、SR-IOV 等技术,有通信链路可观测性建设经验
4. 有自建通信 benchmark 体系或压测平台的经验(如 nccl-tests 扩展、All-to-All专项压测等)
5. 有参与 UCX、Libfabric、OpenMPI、DeepEP 等开源通信项目的经验 投递
MiniMax

About MiniMax

MiniMax is a leading global technology company and one of the pioneers of large language models (LLMs) in Asia. Our mission is to build a world where intelligence thrives with everyone.

MiniMax develops proprietary LLMs across various modalities, including a trillion-parameter MoE model, a speech model with low latency and native support for major Asian languages, and a state-of-the-art text-to-speech and text-to-video models. Experience it now at https://hailuoai.com/

Leveraging these multi-modality general-purpose models, the MiniMax API Platform offers enterprises and developers secure, flexible, and reliable API services, enabling the rapid deployment of AI applications.

Industry
IT & Software
Company Size
51-200 employees
Headquarters
Singapore, SG
Year Founded
2022
Social Media