01.AI

AI测试工程师(自动化 / 评测 / 质量平台)

01.AI  •  Onsite  •  3 months ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

AI测试工程师(自动化 / 评测 / 质量平台)北京全职研发 - 测试职位描述1. 建立适配B端Agent的质量体系与发布门禁:稳定性、工具成功率、引用一致性、安全指标、性能与成本指标。
2. 场景测试:多轮对话、工作流分支、工具链路(Tool Chain)、异步/长任务、并发、异常恢复、幂等与重试风暴。
3. 自动化体系:API测试(Tool Schema、接口Schema)、E2E(React 管理台 / 编排器,Playwright)、测试数据与环境管理(SaaS vs 私有化 / 离线)。
4. 评测体系:离线评测集(业务 + 对抗)、自动评分(规则 / LLM-as-judge / 人审)、版本对比与回归门禁、漂移监控。
5. 安全合规测试:Prompt Injection、越权工具调用、RAG 权限绕过、敏感信息泄露、审计链路完整性、离线数据驻留与脱敏校验。
6. 可观测与复现:基于Tracing / Metrics / Logs的失败分类、回放(Conversation + Tool Traces)、复现脚本与根因分析,推动修复闭环。
7. 熟练使用相关AI工具包括不限于:
- 自动化测试:利用Cursor / Claude Code生成PyTest / Playwright自动化脚本、API测试用例,生成对抗性测试数据与边界场景用例
- 调试与复现:AI辅助日志分析、Traces链路溯源、根因定位,自动生成失败场景复现脚本与步骤,提升问题闭环效率
- 文档与报告:自动生成测试计划、测试用例文档、缺陷分析报告、测试复盘总结,以及私有化测试检查清单
- 评测与质量:用AI辅助搭建离线评测集、生成LLM-as-judge评分规则,自动化对比版本间评测差异、标注异常测试场景职位要求技术栈:Python / PyTest / Playwright / API测试 / 评测与可观测 / etc.
经验要求:5年+
1. 能主导复杂系统测试策略,熟练测试设计、缺陷分析与质量闭环。
2. 熟练 Python 自动化(PyTest),E2E熟练使用Playwright。
3. 熟悉ToB测试重点:多租户、RBAC / ABAC、审计、配额/限流、灰度 / 回滚、私有化升级兼容(K8s 与 Docker Compose 双形态)。
4. 理解LLM/Agent非确定性与评测方法:结构化输出校验、工具失败模式、上下文污染、采样稳定性。
5. 理解RAG测试:Milvus / PGVector / ES 检索链路、权限过滤、引用溯源一致性、知识更新回归。
6. 有线上质量经验:监控告警、灰度放量、回滚与事故复盘。
加分项
- 有 LLM/Agent评测或质量中台经验:数据集管理、版本对比、回归门禁、A/B、评分稳定性控制。
- 有对抗 / 红队经验:越狱、注入、数据外带(Exfiltration)、权限绕过。
- 熟悉OpenTelemetry / ELK / Prometheus,能基于Traces建立回放与复现工具。
- 性能与成本测试经验:并发、限流策略、重试风暴、Token 成本与耗时分布。 投递
01.AI

About 01.AI

01.AI has launched Yi Open-source models on Hugging Face, GitHub, ModelScope. Stay tuned for more of our LLMs and application launches coming up!

https://huggingface.co/01-ai

https://github.com/01-ai/Yi

https://www.modelscope.cn/organization/01ai

Industry
IT & Software
Company Size
51-200 employees
Headquarters
Unknown
Year Founded
Unknown
Website
01.ai
Social Media