Xiaomi Technology

AI基础设施研发工程师(Sandbox / 容器化)-MiMo

Xiaomi Technology  •  Remote  •  9 days ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

AI基础设施研发工程师(Sandbox / 容器化)-MiMo北京社招全职职位 ID:A229573职位描述MiMo 大模型团队正在寻找熟悉 sandbox、容器化和云原生基础设施的研发工程师,一起建设面向大规模强化学习训练的基础设施能力。
随着大模型 Agent 和代码能力训练进入大规模 RL 阶段,我们需要构建稳定、安全、可扩展的任务执行环境。你将参与设计和实现 sandbox 执行系统、容器调度平台、训练任务环境、隔离与资源管理机制,为大规模 Agent 任务、代码执行任务和 RL 训练提供底层 infra 支撑。
工作职责
1. 设计和建设面向 RL 训练的 sandbox 执行环境,支持代码运行、工具调用、浏览器自动化、文件系统操作、网络访问控制等能力。
2. 基于 Docker、Kubernetes 等技术,构建可大规模调度的容器化任务运行平台,支持高并发、多租户、可观测、可恢复的训练任务执行。
3. 参与大规模 RL 训练 infra 的 scaling,包括任务分发、资源调度、环境复用、状态隔离、失败恢复、日志采集和性能优化。
4. 建设安全隔离机制,降低模型生成代码、Agent 工具调用和自动化执行带来的安全风险,包括权限控制、系统调用限制、网络隔离、资源限额等。
5. 与模型训练、Agent 框架、数据和评测团队合作,将训练任务需求转化为稳定可用的执行环境和平台能力。
6. 分析大规模训练过程中的系统瓶颈和故障问题,持续优化调度效率、资源利用率、任务吞吐和环境稳定性。
7. 参与内部平台工具建设,包括任务管理、运行监控、日志查询、环境调试、指标看板和自动化运维能力。职位要求任职要求
1. 熟悉 Linux 系统、进程模型、文件系统、网络、权限控制和资源隔离机制。
2. 熟悉 Docker、containerd、Kubernetes 等容器化和云原生技术,有实际生产环境使用或平台建设经验。
3. 理解 sandbox / 隔离执行环境的核心问题,包括安全边界、资源限制、网络隔离、文件系统隔离、进程生命周期管理等。
4. 熟悉至少一种后端或脚本语言,如 Go、Python、Rust、JavaScript / TypeScript、Shell 等,能够独立开发 infra 工具或平台服务。
5. 具备分布式系统和基础设施工程意识,理解任务调度、队列、服务发现、监控告警、日志系统、故障恢复等常见机制。
6. 对大模型训练、Agent 执行环境、代码运行平台或 RL 训练基础设施有兴趣,愿意深入理解训练系统对 infra 的需求。
7. 具备良好的问题定位能力,能够在复杂系统中分析性能、稳定性和资源利用率问题。
加分项
1. 有大规模 Kubernetes 集群、在线执行平台、CI/CD 平台、Serverless、判题系统、代码沙箱或浏览器自动化平台建设经验。
2. 熟悉 Linux namespace、cgroup、seccomp、AppArmor、SELinux、Firecracker、gVisor、Kata Containers 等隔离技术。
3. 有高并发任务调度、批处理系统、工作流引擎、训练平台或 MLOps 平台建设经验。
4. 熟悉 GPU / CPU 混合资源调度、分布式训练、Ray、Slurm、Argo Workflows、Volcano、KubeRay 等技术。
5. 熟悉可观测性体系,如 Prometheus、Grafana、OpenTelemetry、Loki、ELK 等。
6. 有安全工程经验,理解不可信代码执行、权限收敛、沙箱逃逸风险和多租户隔离。
7. 有大模型 Agent、代码执行环境、强化学习训练平台或模型评测平台相关经验者优先。
我们希望你具备的特质
1. 对底层系统和基础设施有真实经验,能把“能跑”做成“安全、稳定、可规模化地跑”。
2. 对复杂系统中的稳定性、隔离性和性能问题敏感,喜欢把问题追到底。
3. 能在快速变化的训练需求中抽象出通用平台能力,而不是只做一次性脚本。
4. 对大模型和 Agent 训练基础设施有兴趣,愿意参与从 0 到 1、从小规模到大规模的系统建设。 投递
Xiaomi Technology

About Xiaomi Technology

Xiaomi Corporation was founded in April 2010 and listed on the Main Board of the Hong Kong Stock Exchange on July 9, 2018 (1810.HK). Xiaomi is a consumer electronics and smart manufacturing company with smartphones and smart hardware connected by an IoT platform at its core.

Embracing our vision of “Make friends with users and be the coolest company in the users’ hearts”, Xiaomi continuously pursues innovations, high-quality user experience and operational efficiency. The company relentlessly builds amazing products with honest prices to let everyone in the world enjoy a better life through innovative technology.

Xiaomi is one of the world's leading smartphone companies. The company has also established the world’s leading consumer AIoT (AI+IoT) platform,reached 558 million smart devices connected to its platform (excluding smartphones,laptops and tablets) as of September 30 2022. Xiaomi products are present in more than 100 countries and regions around the world. In August 2022, Xiaomi was included in the Fortune Global 500 list for the fourth year in a row, ranking 266th. The company is the fastest-rising Chinese technology conglomerate during the four-year period.

Xiaomi is a constituent of the Hang Seng Index, Hang Seng China Enterprises Index, Hang Seng TECH Index and Hang Seng China 50 Index.

Industry
IT & Software
Company Size
10,000+ employees
Headquarters
Beijing, CN
Year Founded
2010
Social Media