Job Description
大模型数据平台专家北京社招全职职位 ID:A184799职位描述1. 大模型数据基础设施建设 (平台体系)
- 数据处理与挖掘平台: 负责大模型数据处理流水线的设计与开发,建设高性能、可扩展的数据处理平台与数据挖掘平台。实现从海量原始数据(网页、论文、代码等)到高质量预训练/SFT数据的清洗、去重、过滤、分类及质量评分。
- 算子资产平台建设: 负责算子资产平台的规划与构建,沉淀通用的ETL算子、NLP特征算子及数据增强算子,实现算子的标准化管理、复用与编排,降低数据处理的开发门槛。
- 数据资产全生命周期管理: 牵头数据管理平台与数据资产平台的建设,负责数据血缘追踪、版本管理、元数据管理及数据集市的构建,确保数据来源可追溯、质量可评估、资产可复用。
2. 数据安全与权限体系
- 权限与合规管理: 设计并实施精细化的数据权限管理方案,确保多租户环境下的数据隔离与安全。建立数据合规审查机制,针对PII(个人隐私信息)、内容安全等进行自动化识别与脱敏处理。
3. 数据策略与模型协同
- Data-centric AI 实践: 深入理解模型训练原理(Transformer架构、Scaling Law等),与算法团队紧密配合,通过数据分布分析和质量评估,制定数据配比策略,直接对模型训练效果负责。
- NLP 核心算法应用: 运用高阶 NLP 处理能力,开发基于语义理解、聚类、去毒、去偏见的核心算法,解决长文本处理、多模态数据对齐等复杂数据问题。职位要求4. 专业背景与经验
- 计算机、数学、统计学或相关专业本科及以上学历,3年以上大数据处理或NLP相关工作经验。
- 有大模型(LLM)预训练数据处理、搜索推荐系统数据流或大规模爬虫处理经验者优先。
5. 核心技术能力
- 大数据开发能力: 精通 Python/Java/Scala 中至少一门语言,熟练掌握 Spark、Flink、Hadoop 等大数据生态组件,具备PB级海量文本数据的处理与性能调优经验。
- NLP 算法能力: 扎实的 NLP 基础,熟悉正则表达式、文本编码、分词及主流 NLP 工具库(如 HuggingFace、NLTK)。了解 BERT/GPT 等模型原理,能利用模型辅助进行数据清洗和质量打分。
- 平台架构能力: 熟悉数据中台架构,有数据资产管理(Data Governance)或算子平台(Operator Platform)的设计与落地经验,理解 DataOps 理念。
6. 领域知识
- 懂模型训练: 理解大模型预训练(Pre-training)、指令微调(SFT)及强化学习(RLHF)对数据格式和质量的不同需求,能从数据角度分析模型Loss波动原因。
- 懂安全权限: 熟悉 RBAC 模型,了解数据安全法规(如 GDPR、数据安全法),有数据加密、脱敏及权限管控系统建设经验。
7. 综合素质
- 具备良好的业务抽象能力,能将复杂的数据处理流程抽象为标准化的平台能力。
- 对数据质量有极高的敏感度,具备优秀的问题分析与跨部门沟通协作能力。 投递