数据处理架构师
职位描述
1.主导 PB 级训练数据处理平台的架构设计与实现
2.设计高效的数据清洗、过滤、去重 pipeline
3.优化数据处理效率,降低端到端处理延迟
4.建立数据质量保障体系,确保训练数据质量
5.制定数据处理技术规范,指导团队执行
职位要求
•5+ 年大数据处理经验
•精通 Spark、Flink、Kafka 等大数据技术栈
•熟悉分布式存储(HDFS、Iceberg、S3)
•有 100TB+ 数据处理经验
•理解机器学习训练数据需求
•具备流式处理与批处理混合架构设计能力
加分项:
•大模型预训练数据处理经验
•数据质量检测框架开发经验
•Iceberg/Hudi 数据湖经验
职位信息
投递