Job Description
数据开发工程师(AI Agent方向)BeijingFull-timeR&D - Data miningResponsibilities1. 负责公司数据仓库/数据中台的架构设计、ETL 开发与维度建模,保障核心业务数据链路的高效与稳定运行。
2. 面向大模型重构和沉淀元数据。统筹核心表结构、字段注释、业务指标字典的规范化治理,为大模型提供高质量、无歧义的上下文(Context)。
3. 配合 AI 研发团队,负责底层数据字典的向量化构建与数据 Pipeline 开发。通过优化检索增强生成(RAG)、构建高质量 Few-shot 样本库等数据侧手段,持续提升大模型生成 SQL 的准确率。
4. 基于 Python/Java 开发标准化、安全的数据查询 API 和工具库,供 AI Agent(如 LangChain/Dify 等)直接调用,解决大模型直接查库的性能与权限痛点。
5. 搭建适配 AI 问答场景的数据质量监控体系(DQC)。通过 AST 语法树拦截、算子下推、结果集抽样等机制,保障大模型输出数据的准确性、安全性及查询性能。
6. 协同 AI 算法、后端及产品团队,深入业务场景,推进智能报表、自动归因分析等 Agent 工具在业务运营中的落地。Qualifications1. 核心数仓能力:精通 SQL,熟练掌握 Python。对数据建模(Kimball 等)有深刻理解,有指标体系、标签体系或宽表模型的从 0 到 1 建设经验。
2. 元数据管理意识:具备极强的数据治理意识,有梳理杂乱数据源、构建统一数据字典和业务口径的实战经验。
3. 大模型应用能力(重点):了解 LLM 工作原理,熟练使用 OpenAI / DeepSeek 等大模型 API。掌握基本的 Prompt Engineering(提示词工程)技巧,了解如何通过 Few-Shot(少样本)或基础 RAG 提升大模型回答准确度。
4. 工程闭环能力:能独立用 Python 写出稳定的后端脚本(如 FastAPI/Flask),能处理大模型调用的并发、超时、重试逻辑,具备全栈解决问题的思路。 Apply