Job Description
机器学习平台研发工程师北京全职互联网 / 电子 / 网游 - 研发职位描述-负责机器学习平台与算力基础设施的研发与演进,为模型训练、推理、评测及数据处理等流程提供稳定、高效、可扩展的平台能力,主要包括:
- 参与并主导大规模算力平台的设计与研发,覆盖资源调度、任务编排、容器与运行时管理等关键方向,持续提升集群整体资源利用率,保障训练与推理场景的稳定运行;
- 基于 Kubernetes、Docker 等云原生技术,参与调度器扩展及 CRD/Controller 等核心能力建设,支撑大规模分布式训练与推理场景。
- 持续推进平台的易用性与性能优化,完善工具链与开发体验,降低算法与模型团队的使用门槛,提升整体研发效率。
职位要求- 本科及以上学历,3 年及以上研发经验,有大规模容器集群或平台型系统建设经验,有千卡及以上规模集群管理或调度经验者优先;
- 熟练掌握 Golang,具备扎实的数据结构与算法基础,能够独立定位和解决复杂系统问题;
- 熟悉 Kubernetes 核心机制与组件(如调度、网络、存储、Controller/CRD 等),了解容器运行时及云原生相关技术体系;
- 熟悉常见分布式数据处理或计算框架(如 Ray / Spark / Flink 等),理解其架构设计与运行模型;
- 了解并行计算与高性能计算相关技术,具备 OpenMP / MPI / RDMA 等使用或优化经验者优先;
- 熟悉至少一种主流深度学习框架及分布式训练方案,如 PyTorch、DDP、DeepSpeed、FSDP 等;
- 具备良好的自驱力、责任感和团队协作意识,能够与算法、平台及业务团队高效协作。 投递