Job Description
AI平台后端研发工程师(高级/资深)上海工程类硕士及以上5-7 年职位描述1.负责 AI 训练平台(实验管理、任务调度、资源分配)的整体架构
2.设计支持万卡级别分布式训练的任务调度系统
3.建设实验追踪、模型版本管理、超参搜索等能力
4.提升算法团队研发效率,降低计算资源浪费
5.与 AI Infra 团队协作,优化训练资源利用率职位要求•5+ 年 MLOps 或平台工程经验
•熟悉 Kubernetes Operator 开发
•有实验管理平台(MLflow、W&B)或任务调度系统开发经验
•了解机器学习训练流程(分布式训练、模型评估等)
•具备平台类产品思维
加分项:
•开源 MLOps 项目贡献
•调度算法优化经验
•多租户平台设计经验职位信息 部门: 数字基础设施部 投递