Job Description
大模型后训练的大规模强化学习系统研究(博士后)上海、北京社招全职互联网 / 电子 / 网游 - 研发职位 ID:A249977职位描述面向大模型后训练阶段对强化学习在效率、稳定性、成本及价值观对齐方面的迫切需求,针对当前强化学习系统普遍存在的算力利用率低、训练稳定性差、算法框架灵活性不足、大规模扩展性受限等核心挑战,开展新一代大规模分布式强化学习系统架构设计、高效数据调度与存储管理机制、鲁棒训练算法与系统协同优化、支持在线持续学习的轻量级推理-训练一体化引擎等关键技术研究。职位要求--职位信息 部门: 技术 投递