Job Description

Code Agent工程师北京全职互联网 / 电子 / 网游职位描述1. 评测与基准构建：面向主流 Code Agent（如 Claude Code、Roo Code、Cline、OpenCode 等）及其底层大模型，设计并执行系统化评测，覆盖真实开发任务、长程多轮交互、工具调用、代码修改与提交、测试/构建/部署等全链路场景，识别优势与短板。
2. 评测体系与标准制定：参与构建并持续迭代 Code Agent 评测体系与标准，定义任务分层、指标体系、数据规范与打分口径，确保评测过程科学、可复现、可对比、可迭代。
3. 自动化评测框架研发：设计并开发可扩展的自动化评测框架，支持多模型/多工具并行跑分与结果对齐、任务编排与环境隔离、过程日志与行为记录、结果归档、可视化与回归检测。
4. 缺陷挖掘与可复现复现包：输出可复现的缺陷清单与复现脚本，定位 agent 的典型失败模式（指令偏移、工具误用、上下文遗忘、代码污染、测试投机、幻觉修复等），并沉淀为回归用例（regression case）。
5. 深度评测报告与产品洞察：定期输出深度评测报告，包含不同 agent / 模型的对比分析、关键案例拆解、指标解读、优化建议及潜在产品机会（交互、权限、记忆、工作流、IDE 集成等）。
6. 高质量 DEMO 与任务集构建：构建高质量 demo 与标准化任务集（含 repo、问题描述、验收标准、隐藏测试/评审规则），帮助团队理解 agent 能力边界，支撑模型优化与产品方向探索。职位要求1. 工程背景扎实：有独立开发者背景或具备完整应用项目开发经验，能独立负责关键模块设计实现。
2. 编程能力与工程落地：熟练掌握至少两门语言（Python / TypeScript / Golang / Rust 等）。
3. Code Agent 深度使用经验：一年以上 Code Agent 深度使用经验（如 Cursor、Copilot、Claude Code 等），熟悉 agent 的多轮协作、工具调用与代码变更工作流。
4. 评测与数据意识：具备强逻辑思维与数据分析能力，能从复杂体验中抽象出指标、对照组与可复现评测流程；能对评测结果做统计解释与误差分析。
【加分项】
1. 有 AI 辅助开发相关的开源项目经验，或独立开发过有真实用户的产品；或组织过团队级代码评审/质量体系建设。
2. 在 AI Coding / Agent 评测领域有内容输出经历（教程、测评文章、项目案例、基准设计、工具链实践等）。
3. 有 Benchmark/评测工程经验：如任务集设计、回归测试体系、CI 集成、容器化评测、日志与可观测性建设等。
4. 具备产品思维，能从用户视角提出可落地的 agent 产品优化方向（交互、可控性、权限/安全、可解释性、成本效率等）。投递

About Z.ai

Z.ai is the AI company behind the GLM series models, dedicated to inspiring the development of AGI to benefit humanity.

Industry

IT & Software

Company Size

51-200 employees

Headquarters

Beijing, CN

Year Founded

Unknown

Website

zhipuai.cn

Social Media