Job Description
AI基础设施运维工程师上海社招全职互联网 / 电子 / 网游职位 ID:A85619职位描述1.负责 GPU 集群的硬件和系统运维,同时参与网络与存储运维工作。
2.处理和恢复各类 GPU 硬件故障,执行集群设备巡检、维护、升级,保障集群和硬件 SLA。
3.负责 GPU 裸金属与容器化平台的交付、部署和基础环境构建,支撑上层大模型训练与推理业务稳定运行。
4.参与 RDMA 组网及高性能文件存储架构设计、优化与调优。
5.对集群进行完整的监控、管理和容量规划,定位并解决性能瓶颈与系统异常。
6.执行 GPU 集群硬件验收与测试,对服务器、GPU、网络、存储等物理性能进行分析与判断。职位要求1.本科及以上学历,具备三年以上的 GPU 集群或大型数据中心/超算的运维经验。
2.熟悉服务器和GPU硬件体系,能熟练进行服务器现场和远程运维。
3.熟悉Linux操作系统和内核的配置和调优;熟悉ansible的使用,shell和python脚本的编写。
4.具备扎实的故障排查能力,对集群性能指标和事件告警有良好分析判断能力。
5.对于高可用,灾备和信息安全有充分的技术认知和工程实践。职位信息 部门: 部署运维中心 投递