MiniMax

系统研发工程师(网络方向)

MiniMax  •  Onsite  •  15 days ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

系统研发工程师(网络方向)上海社招全职研发 - 基础架构职位描述1、负责 AI 基础设施网络系统的研发工作,包括大规模 GPU 集群网络架构设计、RDMA/RoCE 网络管控面能力建设、网络资源管理与调度、网络监控与故障诊断自动化等。
2、参与或主导网络数据面相关系统研发与优化,提升大模型训练场景下的集合通信性能与网络吞吐,包括 NCCL 通信优化、网络转发路径、流控策略、拥塞控制等关键模块。
3、设计并实现网络管控面与数据面的解耦与协同机制,支持多集群、多租户场景下 DCN/DCI 网络的统一管理与高效运行。
4、针对 AI 训练场景中的网络性能与稳定性问题,进行系统级分析与调优,定位 RDMA 链路、交换机转发、光模块、网络拓扑等环节中的瓶颈并推动优化落地。
5、与网络规划、交付、运维团队及上游硬件厂商密切协作,将底层网络硬件能力与业务需求通过系统化方式进行抽象与放大。职位要求1、本科及以上学历,计算机、通信工程、网络工程或相关专业,具备网络系统研发或网络基础设施研发经验。
2、扎实的系统开发基础,精通 Linux 网络栈,理解 TCP/IP、路由交换、VXLAN/BGP 等网络协议原理。
3、主流公有云IaaS服务研发经验。
4、熟悉至少一个方向的网络系统研发:
a.RDMA/RoCE 网络或高性能网络系统
b.网络监控 / 故障诊断 / 可观测性平台
c.SDN / 网络控制面 / 数据面转发相关系统
5、理解或具备大规模 GPU 集群网络、集合通信(NCCL/MPI)、InfiniBand/RoCE 等场景下的网络特性者优先。
6、具备良好的问题分析能力和工程化能力,能够在复杂网络环境中持续推进技术问题定位与解决。 投递
MiniMax

About MiniMax

MiniMax is a leading global technology company and one of the pioneers of large language models (LLMs) in Asia. Our mission is to build a world where intelligence thrives with everyone.

MiniMax develops proprietary LLMs across various modalities, including a trillion-parameter MoE model, a speech model with low latency and native support for major Asian languages, and a state-of-the-art text-to-speech and text-to-video models. Experience it now at https://hailuoai.com/

Leveraging these multi-modality general-purpose models, the MiniMax API Platform offers enterprises and developers secure, flexible, and reliable API services, enabling the rapid deployment of AI applications.

Industry
IT & Software
Company Size
51-200 employees
Headquarters
Singapore, SG
Year Founded
2022
Social Media