后训练后端工程师
职位描述
岗位背景
我们在为大模型做「应用开发」方向的后训练(SFT / RL / Agent 评测)。后端是最碎的一个方向 —— 语言一堆(Go / Python / Node / Java / Rust / PHP …)、框架更碎、数据库 / 消息队列 / 缓存 / RPC 各家口味都不一样,模型在这种"细节多、上下文长、不同栈差异大"的场景里最容易出错。
模型能力的上限,本质上由训练数据和评测体系的质量决定,而后端这种"代码长得对没用、得真的能编译、能起服务、接口契约还得对"的领域,造数据和搭评测的工程难度并不比训模型低。
我们需要一位真正懂后端的工程师,把数据合成、评测、容器沙盒、CI 这条链路做扎实。
你将负责
1. 训练数据构造:为后端方向(主流语言 + 主流框架 —— Go 的 Hertz / Kratos / Gin、Node 的 Fastify / NestJS、Python 的 FastAPI / Django、Java 的 Spring 等)设计任务维度与配方,产出可用于 SFT / RL 的高质量数据,包括单文件代码题、多文件服务实现、API 契约题、数据库 schema / 迁移题、SDK 生成题、bugfix / 重构 / 升级题、多轮 Agent 任务等;
2. 自动化 / Agent / LLM 评测体系:设计与维护后端代码 / 服务行为的自动化评测 —— 包括但不限于编译 / 启动校验、接口契约测试(OpenAPI / Thrift / proto)、单测 / 集成测试、迁移与兼容回归、压测与性能 sanity、Agent 端到端评测 —— 让"模型生成的代码是不是真的能跑、接口是不是真的对"可被自动打分;
3. 服务运行和沙盒集群:建设并维护 高并发、高可用、多样化 的容器化沙盒(基于 e2b / 自建容器 / 远程 Runner),把数据库 / 消息中间件 / 缓存这些"非平凡依赖"打成可一键拉起的镜像,覆盖不同语言运行时 / 中间件版本,保证评测与训练场景的真实性与稳定性;扩展 Agent 在后端环境里的能力边界 —— 读日志、起服务、抓接口、跑测试。
职位要求
硬性要求
- 认可并深度拥抱 AI:这是岗位的前提 —— 本岗位的产出对象本身就是 AI,对 AI 抱观望或抵触态度的同学请绕道。要求把 AI 编程工具当成日常生产力的一部分,熟练使用 Claude Code / Cursor / Codex 等至少一款,持续关注前沿 Agent 框架与 harness(Claude Code、mini-swe-agent、OpenHands、SWE-agent 等),知道它们各自的设计取舍;了解 skill / plugin / sub-agent 等机制的原理与作用,知道在什么场景下该用哪种;
- 真正理解大模型与 Agent 的工作原理(这一条甚至比"会写后端"更重要):能清晰区分 SFT 数据 / RL reward / 评测集的差别,理解 prompt 设计 / tool calling / 多轮对话 / context engineering 这些概念到底在解决什么问题。不要求训过模型,但概念上要扎实 —— 你来这里不是写后端服务的,是给模型造能力的,概念错了方向就错了;
- 1 年以上后端工程经验,主语言至少一门精通(Go / Python / Node / Java 任一,工程能力扎实);
- 熟悉 HTTP / gRPC / RESTful / OpenAPI,知道接口契约怎么测、怎么对;
- 熟悉至少一种主流数据库(MySQL / PostgreSQL)和 ORM 用法,能看懂复杂 SQL,能设计基本的迁移与索引;
- Python 必备(造数据 / 评测代码很多 Python);TypeScript / Node.js 至少能读能改;
- 熟悉 Docker / Linux 与镜像构建。
强加分项
- 做过 训练数据合成 / Benchmark 设计;
- 在 Agent / MCP 生态里有过 深度参与(魔改过 harness、写过 MCP server、给开源 Agent 项目提过 PR 等);
- 多语言 / 多框架背景(同时写过 Go + Python / Java + Node 等);
- 了解 K8s / QEMU / 虚拟化 等基础设施技术,有 e2b / Firecracker / containerd / Kata 等容器或 micro-VM 沙盒搭建经验;
- LLM 网关 / 限流 / 路由(LiteLLM、OpenRouter 等)实战经验;
- 大规模 CI(GitLab Runner / GitHub Actions self-hosted / Buildkite)集群搭建与维护;
- 性能 / 压测 / Profiling 经验,能给评测加上"慢就扣分"这种维度;
- Rust 工程经验。
投递