后训练 Web 工程师
职位描述
岗位背景
我们在为大模型做「移动 & 桌面 & Web 应用开发」方向的后训练(SFT / RL / Agent 评测)。Web 是模型现在能力最强、用户预期最高的一个方向 —— 既要写 React / Vue / Solid 组件,又要让生成的页面真的能在浏览器里点起来、跑起来、看上去不糟。
模型能力的上限,本质上由训练数据和评测体系的质量决定,而 Web 这种"代码能跑只是及格线、还得看 UI / 交互 / 视觉是不是真对"的领域,造数据和搭评测的工程难度并不比训模型低。
我们需要一位真正懂前端 / 全栈的工程师,把数据合成、评测、浏览器自动化、沙盒构建这条链路做扎实。
你将负责
1. 训练数据构造:为 Web 方向(React / Vue / Solid / SvelteKit / Next.js,以及 Tailwind / shadcn / Radix 这类设计系统)设计任务维度与配方,产出可用于 SFT / RL 的高质量数据,包括单文件 UI 组件题、多文件全栈应用题、组件库迁移题、设计稿还原题、可视化与数据看板题、多轮交互 / Agent 风格任务等;
2. 自动化 / Agent / LLM 评测体系:设计与维护前端代码 / 页面行为的自动化评测 —— 包括但不限于 TS 类型检查、构建产物校验、Playwright 端到端、视觉回归、Lighthouse / a11y 指标、设计稿对比、Agent 端到端评测 —— 让"模型生成的页面或操作是否真的有效"可被自动打分;
3. 浏览器和沙盒集群:建设并维护 高并发、高可用、多样化 的前端构建沙盒(npm / pnpm / Vite / 各种 framework CLI)、Headless 浏览器集群与远程沙盒(e2b / 自建容器),覆盖不同浏览器内核 / 视口 / 网络条件,保证评测与训练场景的真实性与稳定性;扩展 Agent 在 Web 环境里的能力边界 —— 读 DOM、点页面、抓网络、改样式。
职位要求
硬性要求
- 认可并深度拥抱 AI:这是岗位的前提 —— 本岗位的产出对象本身就是 AI,对 AI 抱观望或抵触态度的同学请绕道。要求把 AI 编程工具当成日常生产力的一部分,熟练使用 Claude Code / Cursor / Codex 等至少一款,持续关注前沿 Agent 框架与 harness(Claude Code、mini-swe-agent、OpenHands、SWE-agent 等),知道它们各自的设计取舍;了解 skill / plugin / sub-agent 等机制的原理与作用,知道在什么场景下该用哪种;
- 真正理解大模型与 Agent 的工作原理(这一条甚至比"会写前端"更重要):能清晰区分 SFT 数据 / RL reward / 评测集的差别,理解 prompt 设计 / tool calling / 多轮对话 / context engineering 这些概念到底在解决什么问题。不要求训过模型,但概念上要扎实 —— 你来这里不是写页面的,是给模型造能力的,概念错了方向就错了;
- 1 年以上前端 / 全栈工程经验,TypeScript 熟练,React 或 Vue 至少一个真的写过、上过线;
- 熟悉 Vite / Webpack / Rollup,知道 ESM / CJS / Tree-shaking / SSR / Hydration 这些概念到底在干嘛;
- Node.js 工程能力(熟悉 npm / pnpm 生态、能写脚本、能查包冲突);Python 必备(造数据 / 评测代码很多 Python);
- 熟悉 Docker / Linux,能在容器里把 Node 工具链跑起来不抓狂;
- 能用 Playwright / Puppeteer 写浏览器自动化,会调 DevTools Protocol 加分。
强加分项
- 做过 训练数据合成 / Benchmark 设计;
- 在 Agent / MCP 生态里有过 深度参与(魔改过 harness、写过 MCP server、给开源 Agent 项目提过 PR 等);
- 视觉回归 / 设计稿对比 / Lighthouse / a11y 自动化经验;
- shadcn / Radix / Headless UI / Tailwind 设计系统的"中等熟"以上,能判断模型生成的页面"是不是真的好看 / 能用";
- React Native / Flutter Web / Tauri / Electron 跨端经验;
- 了解 K8s / QEMU / 虚拟化 等基础设施技术,有 e2b / 容器化沙盒、远程开发环境的搭建与维护经验;
- Go 工程经验。
投递