Job Description
Code Agent工程师北京全职互联网 / 电子 / 网游职位描述1. 评测与基准构建:面向主流 Code Agent(如 Claude Code、Roo Code、Cline、OpenCode 等)及其底层大模型,设计并执行系统化评测,覆盖真实开发任务、长程多轮交互、工具调用、代码修改与提交、测试/构建/部署等全链路场景,识别优势与短板。
2. 评测体系与标准制定:参与构建并持续迭代 Code Agent 评测体系与标准,定义任务分层、指标体系、数据规范与打分口径,确保评测过程科学、可复现、可对比、可迭代。
3. 自动化评测框架研发:设计并开发可扩展的自动化评测框架,支持多模型/多工具并行跑分与结果对齐、任务编排与环境隔离、过程日志与行为记录、结果归档、可视化与回归检测。
4. 缺陷挖掘与可复现复现包:输出可复现的缺陷清单与复现脚本,定位 agent 的典型失败模式(指令偏移、工具误用、上下文遗忘、代码污染、测试投机、幻觉修复等),并沉淀为回归用例(regression case)。
5. 深度评测报告与产品洞察:定期输出深度评测报告,包含不同 agent / 模型的对比分析、关键案例拆解、指标解读、优化建议及潜在产品机会(交互、权限、记忆、工作流、IDE 集成等)。
6. 高质量 DEMO 与任务集构建:构建高质量 demo 与标准化任务集(含 repo、问题描述、验收标准、隐藏测试/评审规则),帮助团队理解 agent 能力边界,支撑模型优化与产品方向探索。职位要求1. 工程背景扎实:有独立开发者背景或具备完整应用项目开发经验,能独立负责关键模块设计实现。
2. 编程能力与工程落地:熟练掌握至少两门语言(Python / TypeScript / Golang / Rust 等)。
3. Code Agent 深度使用经验:一年以上 Code Agent 深度使用经验(如 Cursor、Copilot、Claude Code 等),熟悉 agent 的多轮协作、工具调用与代码变更工作流。
4. 评测与数据意识:具备强逻辑思维与数据分析能力,能从复杂体验中抽象出指标、对照组与可复现评测流程;能对评测结果做统计解释与误差分析。
【加分项】
1. 有 AI 辅助开发相关的开源项目经验,或独立开发过有真实用户的产品;或组织过团队级代码评审/质量体系建设。
2. 在 AI Coding / Agent 评测领域有内容输出经历(教程、测评文章、项目案例、基准设计、工具链实践等)。
3. 有 Benchmark/评测工程经验:如任务集设计、回归测试体系、CI 集成、容器化评测、日志与可观测性建设等。
4. 具备产品思维,能从用户视角提出可落地的 agent 产品优化方向(交互、可控性、权限/安全、可解释性、成本效率等)。 投递