Job Description
AIGC图像数据工程师BeijingFull-timeR&D - Data miningResponsibilities- 负责图像数据全生命周期建设:围绕业务目标与模型训练需求,搭建数据获取 → 清洗 → 标注/弱标注 → 评估 → 版本管理 → 回流迭代的闭环流程。
- 数据采集与合规治理:推进数据来源梳理、授权/版权风险排查、敏感内容过滤与安全策略落地,建立可审计的数据资产规范。
- 清洗与质量提升:实现去重(近重复/语义重复)、质量筛选(清晰度/噪声/美学/主体完整性等)、异常检测(NSFW/水印/低质/违规)与长尾数据治理。
- 数据标注体系建设:设计并迭代标注 schema(caption、tag、属性、风格、构图、人物/商品信息等),制定标注指南与质检规则,推动标注一致性与效率提升。
- 难例挖掘与数据配比:围绕线上问题(如一致性、可控性、编辑失败、风格偏移等)挖掘难例与负例,构建训练集/验证集配比策略与覆盖度分析。
- 数据工程化与平台化:参与数据管线工程建设(ETL/调度/缓存/存储/索引),支持大规模数据处理与高吞吐读取,提升训练数据供给效率与稳定性。
- 数据评估与可观测性:建立数据质量指标与报表(分布漂移、覆盖率、噪声率、标注一致性等),支持“数据 → 训练 → 评测”的问题定位。
- 跨团队协作:与算法/训练工程/产品/运营协作,将业务问题沉淀为可复用的数据策略、工具链与最佳实践文档。Qualifications- 计算机/数学/统计/相关专业本科及以上,具备扎实的数据处理与工程能力。
- 熟悉 Python 数据处理栈(Pandas / PyArrow / PIL/OpenCV 等),有大规模数据清洗与处理经验。
- 熟悉至少一种数据/任务调度与存储体系(如 Airflow/Argo、HDFS/S3/OSS、Parquet/LMDB/WebDataset 等)或具备快速上手能力。
- 了解机器学习/深度学习训练对数据的基本要求:数据分布、噪声、偏差、过拟合、数据泄漏、训练/验证划分等。
- 具备良好的工程习惯:可复现、规范记录、版本管理、数据血缘追踪、质量监控与故障排查能力。
- 沟通协作能力强,能把“业务现象”转译成“可落地的数据指标与治理方案”。
加分项
- 有图像生成/多模态数据经验:caption/标签体系、审美与风格数据、编辑/可控数据、对齐偏好数据(pairwise preference)等。
- 熟悉大规模去重与检索:哈希去重(pHash/aHash/dHash)、向量检索(FAISS/Milvus)、CLIP embedding 分析等。
- 有数据质量自动评估经验:美学打分、主体检测、OCR/水印检测、NSFW/安全分类等。
- 有标注平台/质检体系经验:标注流程设计、抽检策略、IAA(一致性)度量、标注效率优化。
- 熟悉训练数据格式与读取优化:WebDataset、TFRecord、LMDB、mmap、prefetch/cache、数据打包与 shard 策略。 Apply