数据合成算法工程师
职位描述
1.数据合成算法研发
◦负责设计并实现图像、视频、文本、语音、3D点云等多模态数据合成算法;
◦研发高质量数据生成技术,包括数据扩增、风格迁移、图像生成、文本生成等;
◦探索AIGC(如文生图、文生视频、3D资产生成)在训练数据合成中的应用。
2.前沿领域数据支撑
◦具身智能方向:支撑机器人、自动驾驶、虚拟Agent等场景的数据清洗与合成,包括视觉-语言-动作(VLA)数据、机械臂操作序列、仿真环境数据等;
◦科学智能方向:支撑AI for Science场景的结构化数据处理,如分子性质预测、基因序列、科学文献等多模态科学数据的清洗与质量评估;
◦智能体(Agent)方向:支撑多模态Agent的训练数据构建,包括多轮对话交互、工具调用、任务规划、长程推理等数据的设计与合成。
3.数据质量与评估
◦构建数据质量自动评估与筛选算法
◦研究合成数据的分布优化与多样性提升方法
◦设计数据有效性验证方案
4.数据处理与工程化
◦设计高效的数据处理流水线,支持大规模训练数据的快速构建
◦优化数据合成算法性能,提升数据生成效率
◦参与数据闭环系统建设,实现数据驱动的模型迭代
5.前沿技术探索
◦跟踪具身智能、科学智能、Agent等领域的最新研究成果
◦探索合成数据(Synthetic Data)在前沿模型训练中的最佳实践
职位要求
学历要求:
•熟练掌握Python/C++,熟悉PyTorch/TensorFlow等深度学习框架
•具备数据处理与分析能力,熟悉NumPy、Pandas等工具
素质要求:
•良好的问题分析与解决能力,能够独立开展算法研发工作
•较强的学习能力和自驱力,对新技术有好奇心
•具备良好的团队协作与跨方向沟通能力
•有顶会论文、开源项目经验者优先
加分项(满足其一):
•有Diffusion Model、GAN、VAE等生成模型的研究或工程经验
•有具身智能相关经验(机器人数据、仿真环境、VLA模型等)
•有科学智能相关经验(分子设计、蛋白结构、科学文献处理等)
•有Agent相关经验(对话系统、工具学习、ReAct/CoT等推理框架)
•熟悉数据扩增技术(如albumentations、torchvision transforms)
•了解主动学习、半监督学习、小样本学习
职位信息
投递