MiniMax

存储架构与性能优化工程师(大模型 / AI 基础设施方向)

MiniMax  •  Remote  •  16 days ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

存储架构与性能优化工程师(大模型 / AI 基础设施方向)上海社招全职研发 - 运维职位描述1. 面向大模型训练、推理与数据清洗场景,负责存储软件与硬件方案的选型、测试、交付与运维,制定存储产品技术路线,支撑大规模 GPU/AI 集群稳定运行。
2. 设计并实施 AI 场景下的存储性能测试体系,覆盖:
大模型训练(Checkpoint / Dataset / ...IO 伴生负载)
推理服务(低延迟、高并发、小 IO)
数据清洗与特征工程(高吞吐、顺序/混合 IO)
3. 输出性能评估与优化报告,指导架构决策。
4. 深入分析训练与推理链路中的 IO 瓶颈(CPU / GPU / 网络 / 存储协同),提出针对性的性能调优方案,包括但不限于:
存储协议与参数优化
数据布局与访问模式优化
Cache / Buffer / 并发模型优化
5. 评估 新型存储硬件与技术 在 AI 场景下的性价比与适配性(如 NVMe SSD、RDMA、分布式存储、新文件系统),推动新技术在大模型平台落地。
6. 持续监控存储系统在 真实大模型业务负载 下的稳定性、性能与质量,快速定位问题并推动闭环改进,与训练框架、平台及硬件团队协作解决复杂问题。
7. 建设和完善 存储性能测试方法、工具与自动化体系,提升大模型基础设施的整体效率与可扩展性。
职位要求1. 本科及以上学历,计算机、电子工程等相关专业,
2. 5 年以上存储领域经验(开发 / 测试 / 性能优化),
3. 3 年以上存储系统架构设计或规划经验
4. 熟悉 Linux / Unix 系统,精通系统与 IO 相关原理,具备独立分析和解决复杂性能问题的能力。
5. 熟悉至少一种存储形态: 对象存储 / 块存储 ;分布式文件系统(如并行文件系统、云存储架构)
6. 理解其在 大模型训练与推理场景 下的适用性与限制。
7. 熟悉服务器硬件体系结构(CPU、内存、NVMe SSD、NIC、PCIe 拓扑等),理解 GPU 训练对存储与网络的依赖关系。
8. 熟练使用性能测试与分析工具,如 Fio、Iperf、IOzone 等;
9. 有 AI 场景定制化性能测试或工具开发经验 者优先。
10. 具备良好的跨团队沟通与项目推动能力,能够在 模型训练、平台、硬件、运维 等多团队协作中推动问题落地解决。 投递
MiniMax

About MiniMax

MiniMax is a leading global technology company and one of the pioneers of large language models (LLMs) in Asia. Our mission is to build a world where intelligence thrives with everyone.

MiniMax develops proprietary LLMs across various modalities, including a trillion-parameter MoE model, a speech model with low latency and native support for major Asian languages, and a state-of-the-art text-to-speech and text-to-video models. Experience it now at https://hailuoai.com/

Leveraging these multi-modality general-purpose models, the MiniMax API Platform offers enterprises and developers secure, flexible, and reliable API services, enabling the rapid deployment of AI applications.

Industry
IT & Software
Company Size
51-200 employees
Headquarters
Singapore, SG
Year Founded
2022
Social Media