Job Description
大模型数据处理工程师北京全职互联网 / 电子 / 网游职位描述1.执行大规模训练数据的清洗与预处理工作;
2.开发和维护数据过滤规则体系,设计基于规则的过滤器,开发启发式算法,检测数据异常和质量问题;
3.指导数据标注团队,提供明确的指导和培训;
4.实施数据正确性校验与质量保证,建立数据质量指标和评估机制。职位要求1.统招硕士及以上学历,计算机科学、数据科学或相关专业;
2.一年以上数据处理、数据清洗或数据工程相关经验;
3.精通Python和数据处理库(pandas,numpy等),熟悉大规模数据处理框架(Spark, Dask等),具备设计和实现数据质量控制流程的经验;
4.具备良好的问题解决能力和注重细节的工作态度。
【加分项】
1.大语言模型或AI系统数据准备的实际经验
2.具备数据可视化和探索性数据分析能力
3.熟悉CommonCrawl、C4等大规模数据集的处理经验
4.参与过开源大模型数据处理项目
5.有多模态数据处理经验 投递