Job Description

大模型数据平台专家北京社招全职职位 ID：A184799职位描述1. 大模型数据基础设施建设 (平台体系)
- 数据处理与挖掘平台：负责大模型数据处理流水线的设计与开发，建设高性能、可扩展的数据处理平台与数据挖掘平台。实现从海量原始数据（网页、论文、代码等）到高质量预训练/SFT数据的清洗、去重、过滤、分类及质量评分。
- 算子资产平台建设：负责算子资产平台的规划与构建，沉淀通用的ETL算子、NLP特征算子及数据增强算子，实现算子的标准化管理、复用与编排，降低数据处理的开发门槛。
- 数据资产全生命周期管理：牵头数据管理平台与数据资产平台的建设，负责数据血缘追踪、版本管理、元数据管理及数据集市的构建，确保数据来源可追溯、质量可评估、资产可复用。
2. 数据安全与权限体系
- 权限与合规管理：设计并实施精细化的数据权限管理方案，确保多租户环境下的数据隔离与安全。建立数据合规审查机制，针对PII（个人隐私信息）、内容安全等进行自动化识别与脱敏处理。
3. 数据策略与模型协同
- Data-centric AI 实践：深入理解模型训练原理（Transformer架构、Scaling Law等），与算法团队紧密配合，通过数据分布分析和质量评估，制定数据配比策略，直接对模型训练效果负责。
- NLP 核心算法应用：运用高阶 NLP 处理能力，开发基于语义理解、聚类、去毒、去偏见的核心算法，解决长文本处理、多模态数据对齐等复杂数据问题。职位要求4. 专业背景与经验
- 计算机、数学、统计学或相关专业本科及以上学历，3年以上大数据处理或NLP相关工作经验。
- 有大模型（LLM）预训练数据处理、搜索推荐系统数据流或大规模爬虫处理经验者优先。
5. 核心技术能力
- 大数据开发能力：精通 Python/Java/Scala 中至少一门语言，熟练掌握 Spark、Flink、Hadoop 等大数据生态组件，具备PB级海量文本数据的处理与性能调优经验。
- NLP 算法能力：扎实的 NLP 基础，熟悉正则表达式、文本编码、分词及主流 NLP 工具库（如 HuggingFace、NLTK）。了解 BERT/GPT 等模型原理，能利用模型辅助进行数据清洗和质量打分。
- 平台架构能力：熟悉数据中台架构，有数据资产管理（Data Governance）或算子平台（Operator Platform）的设计与落地经验，理解 DataOps 理念。
6. 领域知识
- 懂模型训练：理解大模型预训练（Pre-training）、指令微调（SFT）及强化学习（RLHF）对数据格式和质量的不同需求，能从数据角度分析模型Loss波动原因。
- 懂安全权限：熟悉 RBAC 模型，了解数据安全法规（如 GDPR、数据安全法），有数据加密、脱敏及权限管控系统建设经验。
7. 综合素质
- 具备良好的业务抽象能力，能将复杂的数据处理流程抽象为标准化的平台能力。
- 对数据质量有极高的敏感度，具备优秀的问题分析与跨部门沟通协作能力。投递

About Dcar

Industry

Unknown

Company Size

Unknown

Headquarters

Unknown

Year Founded

Unknown

Website

dongchedi.com

Social Media

Unknown