Job Description

AI测试工程师（自动化 / 评测 / 质量平台）北京全职研发 - 测试职位描述1. 建立适配B端Agent的质量体系与发布门禁：稳定性、工具成功率、引用一致性、安全指标、性能与成本指标。
2. 场景测试：多轮对话、工作流分支、工具链路（Tool Chain）、异步/长任务、并发、异常恢复、幂等与重试风暴。
3. 自动化体系：API测试（Tool Schema、接口Schema）、E2E（React 管理台 / 编排器，Playwright）、测试数据与环境管理（SaaS vs 私有化 / 离线）。
4. 评测体系：离线评测集（业务 + 对抗）、自动评分（规则 / LLM-as-judge / 人审）、版本对比与回归门禁、漂移监控。
5. 安全合规测试：Prompt Injection、越权工具调用、RAG 权限绕过、敏感信息泄露、审计链路完整性、离线数据驻留与脱敏校验。
6. 可观测与复现：基于Tracing / Metrics / Logs的失败分类、回放（Conversation + Tool Traces）、复现脚本与根因分析，推动修复闭环。
7. 熟练使用相关AI工具包括不限于：
- 自动化测试：利用Cursor / Claude Code生成PyTest / Playwright自动化脚本、API测试用例，生成对抗性测试数据与边界场景用例
- 调试与复现：AI辅助日志分析、Traces链路溯源、根因定位，自动生成失败场景复现脚本与步骤，提升问题闭环效率
- 文档与报告：自动生成测试计划、测试用例文档、缺陷分析报告、测试复盘总结，以及私有化测试检查清单
- 评测与质量：用AI辅助搭建离线评测集、生成LLM-as-judge评分规则，自动化对比版本间评测差异、标注异常测试场景职位要求技术栈：Python / PyTest / Playwright / API测试 / 评测与可观测 / etc.
经验要求：5年+
1. 能主导复杂系统测试策略，熟练测试设计、缺陷分析与质量闭环。
2. 熟练 Python 自动化（PyTest），E2E熟练使用Playwright。
3. 熟悉ToB测试重点：多租户、RBAC / ABAC、审计、配额/限流、灰度 / 回滚、私有化升级兼容（K8s 与 Docker Compose 双形态）。
4. 理解LLM/Agent非确定性与评测方法：结构化输出校验、工具失败模式、上下文污染、采样稳定性。
5. 理解RAG测试：Milvus / PGVector / ES 检索链路、权限过滤、引用溯源一致性、知识更新回归。
6. 有线上质量经验：监控告警、灰度放量、回滚与事故复盘。
加分项
- 有 LLM/Agent评测或质量中台经验：数据集管理、版本对比、回归门禁、A/B、评分稳定性控制。
- 有对抗 / 红队经验：越狱、注入、数据外带（Exfiltration）、权限绕过。
- 熟悉OpenTelemetry / ELK / Prometheus，能基于Traces建立回放与复现工具。
- 性能与成本测试经验：并发、限流策略、重试风暴、Token 成本与耗时分布。投递

About 01.AI

01.AI has launched Yi Open-source models on Hugging Face, GitHub, ModelScope. Stay tuned for more of our LLMs and application launches coming up!

https://huggingface.co/01-ai

https://github.com/01-ai/Yi

https://www.modelscope.cn/organization/01ai

Industry

IT & Software

Company Size

51-200 employees

Headquarters

Unknown

Year Founded

Unknown

Website

01.ai

Social Media