Job Description
大模型数据处理工程师北京全职互联网 / 电子 / 网游职位描述【岗位职责】
1. 执行大规模训练数据的清洗与预处理工作;
2. 开发和维护数据过滤规则体系,设计基于规则的过滤器,开发启发式算法,检测数据异常和质量问题;
3. 指导数据标注团队,提供明确的指导和培训;
4. 实施数据正确性校验与质量保证,建立数据质量指标和评估机制。
职位要求【任职要求】
1. 统招硕士及以上学历,计算机科学、数据科学或相关专业;
2. 一年以上数据处理、数据清洗或数据工程相关经验;
3. 精通Python和数据处理库(pandas,numpy等),熟悉大规模数据处理框架(Spark, Dask等),具备设计和实现数据质量控制流程的经验;
4. 具备良好的问题解决能力和注重细节的工作态度。
【加分项】
1. 大语言模型或AI系统数据准备的实际经验
2. 具备数据可视化和探索性数据分析能力
3. 熟悉CommonCrawl、C4等大规模数据集的处理经验
4. 参与过开源大模型数据处理项目
5. 有多模态数据处理经验 投递