MiniMax

系统内核工程师(Linux Kernel / OS)

MiniMax  •  Onsite  •  5 hours ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

系统内核工程师(Linux Kernel / OS)
北京、上海
社招
全职
研发 - 基础架构
职位描述

我们正在寻找具备深厚 Linux 内核与操作系统工程能力的系统工程师,负责 AI 基础设施中内核层的研发、优化与问题治理。你的工作将覆盖进程调度、内存管理、文件系统、网络协议栈、安全隔离等内核核心子系统,面向大模型训练/推理、AI Agent 执行环境(Sandbox)、大规模集群等真实场景,从 OS 层提供性能、稳定性和安全性的底层支撑。
你将参与
1. Linux 内核核心子系统研发与优化:围绕进程调度、内存管理、文件系统、块 IO、网络协议栈等方向,分析并解决 AI 基础设施场景下的性能瓶颈,提升系统吞吐与时延表现。
2. 内核级安全隔离机制设计与实现:基于 namespace、cgroup、seccomp、capabilities、eBPF、AppArmor/SELinux 等内核机制,构建进程隔离、系统调用过滤、资源访问控制和逃逸防护能力,支撑 Agent Sandbox、容器运行时、多租户环境等场景的安全需求。
3. OS 层资源调度与管控:设计和优化面向多任务、多租户、高并发场景的 CPU 调度策略、内存分配与回收机制、IO 调度和网络资源管控,保障大规模工作负载下的资源公平性与隔离性。
4. 内核级问题定位与治理:定位并解决复杂的内核级性能、稳定性及兼容性问题,包括死锁、内存泄漏、性能抖动、资源竞争、内核崩溃等,具备从现象到根因的完整排查能力。
5. OS 层可观测能力建设:利用 perf、ftrace、bpftrace、eBPF 等工具链,建设系统调用追踪、资源占用分析、异常现场捕获、执行轨迹记录等内核层可观测能力,支撑性能调优和安全审计。
6. GPU/AI 服务器环境适配与优化:参与 GPU 服务器、大规模 AI 集群环境下的 OS 适配工作,优化 NUMA 感知调度、PCIe 拓扑、大页内存、高性能网络等关键路径,提升 Linux 在 AI 基础设施中的稳定性与可扩展性。
7. 环境状态管理与执行回放:设计内核/OS 层的状态快照、环境恢复、执行回放和差异分析能力,支撑问题复现、安全事件回溯和自动化评测。
8. 跨团队协作:与 AI Infra、Agent Runtime、安全团队、评测平台、基础设施运维等团队协作,将内核与 OS 层能力有效传导到上层系统,支撑真实业务场景的稳定运行与规模化落地。
职位要求
1. 本科及以上学历,计算机、软件工程或相关专业,具备 Linux 内核或操作系统研发经验。
2. 扎实的操作系统基础,熟悉 Linux 内核架构,对进程调度、内存管理、文件系统、网络协议栈、块 IO 等至少一个核心子系统有深入理解和工程实践。
3. 熟练使用 C/C++,具备内核级调试与问题定位能力(perf、ftrace、bpftrace、crash、kdump 等)。
4. 熟悉 Linux 安全与隔离机制,包括 namespace、cgroup、seccomp、capabilities、eBPF 中的一种或多种。
5. 熟悉服务器硬件体系结构(CPU、内存、NUMA、PCIe 等),理解其对 OS 行为和资源调度的影响。
6. 具备良好的系统抽象能力和跨团队沟通协作能力。
加分项
1. 有 eBPF 在安全监控、性能分析、网络策略、系统调用过滤等场景的工程落地经验。
2. 有高性能计算、GPU 服务器、大规模 AI 集群中的 OS 适配与性能优化经验。
3. 有安全沙箱、靶场、攻防演练平台、容器运行时安全、逃逸防护等系统的内核层建设经验。
4. 有容器、Kubernetes、虚拟化等云原生基础设施中内核交互层的研发经验。
5. 有状态快照、确定性回放、执行轨迹记录或安全事件回溯系统的内核层实现经验。
6. 对 LLM 应用、Agent 系统、工具调用和任务执行链路有基本理解。
投递
MiniMax

About MiniMax

MiniMax is a leading global technology company and one of the pioneers of large language models (LLMs) in Asia. Our mission is to build a world where intelligence thrives with everyone.

MiniMax develops proprietary LLMs across various modalities, including a trillion-parameter MoE model, a speech model with low latency and native support for major Asian languages, and a state-of-the-art text-to-speech and text-to-video models. Experience it now at https://hailuoai.com/

Leveraging these multi-modality general-purpose models, the MiniMax API Platform offers enterprises and developers secure, flexible, and reliable API services, enabling the rapid deployment of AI applications.

Industry
IT & Software
Company Size
51-200 employees
Headquarters
Singapore, SG
Year Founded
2022
Social Media