帆书

高级基础设施运维工程师(大模型/AIGC)

帆书  •  Remote  •  5 hours ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

高级基础设施运维工程师(大模型/AIGC)
上海、北京
全职
互联网 / 电子 / 网游 - 研发
职位描述
1、从0到1算力平台建设:负责大模型训练集群的物理规划与资逻辑部署,包括GPU服务器选型、高速无损网络(RoCEV2/IB)架构设计及计算存储资源分配
2、大模型训练保障:深度参与百卡级大模型训练任务的运维,优化NCCL通信性能,解决训练过程中的掉卡、慢卡、断点续训及存储IO瓶颈问题
3、模型账号网关开发:从零搭建企业级三方模型(OpenAl、Claude、文心一言等)账号聚合网关,实现Token计费统计、多租户限流、Key池自动轮询与容灾切换
4、调度与平台化:维护基于Kubernetes(KubeRay/Volcano)或Slurm的高效调度系统,提升GPU资源利用率
5、监控与安全:建立精细化的GPU硬件监控体系(如DCGNM),负责API调用的安全审计与内容过滤机制
职位要求
1、硬核背景:3年以上基础设施运维经验,至少完整参与过一个大模型(LLM)从环境搭建到持续训练的生命周期
2、网关能力:精通Golang、Python或Java至少一种后端语言,具备模型API网关或反向代理系统的开发经验,熟悉高并发下的流量治理
3、算力专家:深入理解NVIDIAGPU架构,熟悉并行计算框架(DeepSpeed、Megatron-LM)在底层资源上的映射与调优
4、网络与存储:熟练配置RoCEv2无损网络(PFC/ECN),了解Lustre、GPFS或JuiceFS等并行文件系统在Al场景下的最佳实践
5、工程素养:具备极强的故障排查能力,对"系统稳定性"有执念,能通过自动化手段(MCP、Ansible、Terraform)解决规模化运维难题
加分项:
· 有国内外主流模型(如GPT,Claude,DeepSeek,Qwen)深度集成与成本优化经验
· 在GitHub有知名Al基础设施、网关或模型运维相关开源项目页献
· 熟悉国产算力平台(华为异腾、寒武纪等)的适配与混合训服
投递
帆书

About 帆书

Industry
Unknown
Company Size
Unknown
Headquarters
Unknown
Year Founded
Unknown
Social Media
Unknown