Job Description

数据合成算法工程师

上海

工程类

硕士及以上

职位描述

1.数据合成算法研发
◦负责设计并实现图像、视频、文本、语音、3D点云等多模态数据合成算法；
◦研发高质量数据生成技术，包括数据扩增、风格迁移、图像生成、文本生成等；
◦探索AIGC（如文生图、文生视频、3D资产生成）在训练数据合成中的应用。
2.前沿领域数据支撑
◦具身智能方向：支撑机器人、自动驾驶、虚拟Agent等场景的数据清洗与合成，包括视觉-语言-动作（VLA）数据、机械臂操作序列、仿真环境数据等；
◦科学智能方向：支撑AI for Science场景的结构化数据处理，如分子性质预测、基因序列、科学文献等多模态科学数据的清洗与质量评估；
◦智能体（Agent）方向：支撑多模态Agent的训练数据构建，包括多轮对话交互、工具调用、任务规划、长程推理等数据的设计与合成。
3.数据质量与评估
◦构建数据质量自动评估与筛选算法
◦研究合成数据的分布优化与多样性提升方法
◦设计数据有效性验证方案
4.数据处理与工程化
◦设计高效的数据处理流水线，支持大规模训练数据的快速构建
◦优化数据合成算法性能，提升数据生成效率
◦参与数据闭环系统建设，实现数据驱动的模型迭代
5.前沿技术探索
◦跟踪具身智能、科学智能、Agent等领域的最新研究成果
◦探索合成数据（Synthetic Data）在前沿模型训练中的最佳实践

职位要求

学历要求：
•熟练掌握Python/C++，熟悉PyTorch/TensorFlow等深度学习框架
•具备数据处理与分析能力，熟悉NumPy、Pandas等工具
素质要求：
•良好的问题分析与解决能力，能够独立开展算法研发工作
•较强的学习能力和自驱力，对新技术有好奇心
•具备良好的团队协作与跨方向沟通能力
•有顶会论文、开源项目经验者优先
加分项（满足其一）：
•有Diffusion Model、GAN、VAE等生成模型的研究或工程经验
•有具身智能相关经验（机器人数据、仿真环境、VLA模型等）
•有科学智能相关经验（分子设计、蛋白结构、科学文献处理等）
•有Agent相关经验（对话系统、工具学习、ReAct/CoT等推理框架）
•熟悉数据扩增技术（如albumentations、torchvision transforms）
•了解主动学习、半监督学习、小样本学习

职位信息

部门：数字基础设施部

投递

About 上海创智学院

上海创智学院成立于2024年7月，是全新的高等教育科研机构，致力于培养新一代信息技术高端人才。学院旨在汇聚活跃创造力的师资和最富潜质的学生，开展新一代信息技术前沿科学研究、交流合作、技术转让、产业合作，孵化创新企业、打造创新高地。

Industry

Biotech & Life Sciences

Company Size

1-10 employees

Headquarters

Unknown

Year Founded

2024

Website

sii-czxy.com

Social Media