Job Description
Agent Infra 运维开发工程师北京全职互联网 / 电子 / 网游 - 研发职位描述【背景】
纵观全球 AI 发展,大模型正经历从“对话式生成”向“自主执行工具与任务”的 Agentic(智能体)范式跨越。具备复杂规划、推理和行动能力的智能体,被普遍认为是下一代 AI 的核心竞争力所在,不仅是当前学术界与工业界共同瞩目的技术焦点,更蕴含着极广阔的商业落地前景。
构建和评测强大的 Agentic 能力,不仅是算法层面的突破,更是对底层基础设施的极限考验。智能体在进行代码执行、工具调用、环境交互和多轮评测时,极其依赖海量、安全、高度动态的虚拟执行环境。这意味着我们需要一个能够支撑极其庞大并发量、具备极致弹性与隔离能力的大规模容器化运行底座。
我们团队正是这一关键底座的建设者。在这里,你将面对的是超大规模容器调度的真实工程挑战。你参与设计的系统将直接决定 Agent 训练与评测的迭代效率,成为支撑下一代大模型能力进化的技术基石。如果您对构建极致弹性的云原生架构充满热情,并渴望在 AI 浪潮的最前沿解决极具挑战性的系统性问题,欢迎加入我们!
【岗位职责】:
负责容器运行时及相关生态的运维及开发,主要包括:
- 参与并主导大规模容器调度系统的设计与研发,覆盖资源调度、任务编排、容器与运行时管理等关键方向,持续提升系统整体容量,保障训练与评测场景的稳定运行;
- 参与容器镜像库的迭代升级,提升镜像构建、存储、代理等场景效率;
- 基于 Kubernetes、CRI 等云原生技术,参与调度器扩展及 CRD / Controller 等核心能力建设,支持大规模容器调度;
- 持续推进系统可观测性与性能优化,完善工具链与开发体验,降低系统使用门槛,提升整体研发效率。职位要求【岗位要求】:
- 统招本科及以上学历,3年以上平台运维经验,1年以上 Go 语言研发经验。有分布式系统建设运维经验,有大规模集群管理或调度经验者优先;
- 具备扎实的数据结构与算法基础,熟悉常见的设计模式,能够独立定位和解决复杂系统问题;
- 熟悉 Kubernetes 核心机制与组件(如调度、网络、存储、Controller/CRD 等),了解容器运行时及云原生相关技术体系;
- 熟悉 OCI 镜像标准,了解镜像仓库实现方式,了解镜像组织结构。有镜像加速相关经验者优先;
- 熟悉计算机网络,能够通过抓包解决常见网络问题。有 DNS 插件开发经验者优先;
- 具备良好的自驱力、责任感和团队协作意识,能够与算法、平台及业务团队高效协作。 投递