MiniMax

AI基础设施系统架构师(Tech Lead)

MiniMax  •  Onsite  •  16 days ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

AI基础设施系统架构师(Tech Lead)上海、北京社招全职研发 - 基础架构职位描述 1. IaaS 平台架构设计:负责 AI IaaS 基础设施的架构设计与持续迭代,涵盖 GPU算力资源池化、多集群调度、弹性扩缩容等核心能力建设,提供一致性、可扩展、高可靠的平台技术底座
2. Infra 管理平台:规划并推进基础设施管理平台的建设,覆盖资产管理、容量管理、 故障自愈、可观测性等能力,提升大规模集群的运维效率和自动化水平
3. 硬件方案创新与 TCO 优化:跟踪GPU/网络/存储等硬件技术演进,联合硬件研发、网络、存储、内核等团队推动方案创新 ,在性能、成本、可用性、可运维性等维度持续提升竞争力
4. 算力中心规划与建设:Lead团队成员完成大模型训练/推理场景下的算力中心整体建设,包括机房选址评估、电力/散热容量规划、服务器选型与集群组网方案设计,端到端交付高性能 AI 基础设施 职位要求 1. 5 年以上云计算/IDC 基础设施相关工作经验,有大规模 AI 算力集群(千卡以上)的规划、建设或运营经验优先
2. 深入理解计算机体系结构, 对GPU 服务器、高速网络(IB/RoCE/NVLink/NVSwitch)、高性能存储等其中1个或多个方向有比较深入的熟悉和了解
3. 了解大模型训练对基础设施的核心需求,熟悉主流 AI 训练/推理基础设施生态(NVIDIA DGX/HGX、集合通信、NCCL等)
4.. 有 IaaS 平台或基础设施管理平台的设计与落地经验者优先(资源调度、CMDB、监控告警等)
5 具备跨团队项目推动经验和良好的沟通领导力,能带领 3-5 人项目组攻克复杂技术问题
加分项
- 有头部云厂商(阿里云/AWS/GCP/Azure)或 AI 公司基础设施团队经验
- 参与过万卡级别集群的规划建设 投递
MiniMax

About MiniMax

MiniMax is a leading global technology company and one of the pioneers of large language models (LLMs) in Asia. Our mission is to build a world where intelligence thrives with everyone.

MiniMax develops proprietary LLMs across various modalities, including a trillion-parameter MoE model, a speech model with low latency and native support for major Asian languages, and a state-of-the-art text-to-speech and text-to-video models. Experience it now at https://hailuoai.com/

Leveraging these multi-modality general-purpose models, the MiniMax API Platform offers enterprises and developers secure, flexible, and reliable API services, enabling the rapid deployment of AI applications.

Industry
IT & Software
Company Size
51-200 employees
Headquarters
Singapore, SG
Year Founded
2022
Social Media