MiniMax

大模型训练框架研发工程师-生成模型方向

MiniMax  •  Remote  •  15 days ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

大模型训练框架研发工程师-生成模型方向紧急北京、上海社招全职研发 - 基础架构大模型系统职位描述你将加入一支把“把万卡集群跑到极致”当日常的团队,与业内领先的通用大模型一起成长。你的核心任务是:突破大规模训练的速度、成本与稳定性的极限。
你将负责的核心工作:
1. 大规模分布式训练系统研发(Scale Matters)
- 主导 Data / Tensor / Pipeline / Expert 并行 策略的研发与优化。
- 优化高性能通信、计算通信掩盖、显存复用,提升近万卡训练的集群利用率。
- 面向上百亿〜万亿参数模型,实践高效并行范式。
2. 性能极限优化(Performance Engineering)
- 系统性分析训练吞吐瓶颈(comm / compute / IO / kernel / memory)。
- 针对关键路径做深度优化:算子融合、精度压缩、通信调度、显存管理策略。
- 与推理体系协同推进量化、MoE、Speculative Training 等最新机制的训练端落地。
3. 前沿训练技术探索(Frontier Research → Engineering)
根据你的兴趣及特长,可主导其中一类:
- 前沿训练范式:Agentic RL、异步 RL等机制的系统工程化落地。
- 训练稳定性:大规模优化器、 动态容灾、divergence 检测与修复机制。
- 可扩展性研究:scaling law 工程落地、模型分布式形态设计、训练效率极限建模。
4. 与硬件深度协作(System × Model)
- 与底层 kernel / runtime / compiler 团队协作,共同推进 compute-bound 和 comm-bound 场景的极限性能。
- 设计充分压榨 GPU/NPU 的训练模式,让硬件“跑在它没想过的速度”。职位要求我们希望你具备(不求全,但求强)
1. 可以 0 优化经验,但在其他领域有过优秀成果。
2. 熟悉高级编程语言,具备扎实的数据结构、并行编程、系统基础。
3. 对 PyTorch、DeepSpeed、Megatron、Horovod、JAX、XLA 等之一有体系化理解。
4. 对以下任一方向有深入经验或潜力:
- 大型分布式训练(DP/TP/PP/MoE)
- GPU/多机通信优化(NCCL、RDMA、通信拓扑)
- 训练框架/执行引擎研发
- 大模型训练的性能与稳定性优化
5. 对前沿训练问题有明确兴趣,如:
- 训练端:scaling law、混合并行策略、优化器系统、极致显存压缩
- 推理端协同:量化训练、KV cache aware training、speculative training
6. 有大规模模型训练经验(千卡〜万卡)者优先。
7. 有顶会论文、开源贡献、或工程项目能展示你能力者,是加分项但非必要。
为什么加入我们
- 你将直接参与 领先通用大模型的核心训练体系,工作成果会快速转化为真实产品力。
- 足够高的解决问题自由度,我们的工作不仅局限于特定scope,也不受限于特定工程算法方案,只要能够挑战更高的极限,可以放下当前所有的约束。
- 和有“偏执工程美学”的伙伴一起,把“更快、更稳、更大规模”做成一种乐趣。 投递
MiniMax

About MiniMax

MiniMax is a leading global technology company and one of the pioneers of large language models (LLMs) in Asia. Our mission is to build a world where intelligence thrives with everyone.

MiniMax develops proprietary LLMs across various modalities, including a trillion-parameter MoE model, a speech model with low latency and native support for major Asian languages, and a state-of-the-art text-to-speech and text-to-video models. Experience it now at https://hailuoai.com/

Leveraging these multi-modality general-purpose models, the MiniMax API Platform offers enterprises and developers secure, flexible, and reliable API services, enabling the rapid deployment of AI applications.

Industry
IT & Software
Company Size
51-200 employees
Headquarters
Singapore, SG
Year Founded
2022
Social Media