Job Description
AI院-GLM团队-后训练 RLHF 算法工程师(26届校招)北京正式研发 - 算法职位描述【团队介绍】
GLM 团队是国内最早从事大模型预训练的团队之一,在 2022 年就完成了千亿模型 GLM-130B 的预训练;GLM-4 在文本上的通用能力已经达到了国际第一梯队的水准;25年7月发布的GLM-4.5 首次在单个模型中实现将推理、编码和智能体能力原生融合,以满足智能体应用的复杂需求,取得了全球模型第三、国产模型第一,开源模型第一的成绩。团队具有充沛的计算资源,可以支持预训练方面的探索。
团队专注于大语言模型在“通用领域”的能力提升——涵盖对话、创作、角色扮演等领域,涵盖指令遵循、逻辑性、幻觉、情商等基础能力。随着模型应用场景的急速扩大,后训练(Post-training)阶段已成为决定模型最终体验的关键一环。团队目标是构建业内领先的后训练技术栈,提升模型的生成质量和稳定性。
【职位描述】
1.对齐数据优化;包括针对模型特定能力进行数据构造、筛选和优化,特定领域(如指令遵循、逻辑性、角色扮演)等数据筛选和合成;对齐数据的质量和多样性控制等;
2.后训练扩展性:探索模型如何通过思维链推理,在“通用领域”的任务上取得更优的效果;
3.强化学习算法优化:提升后训练 scaling 性能;多目标奖励模型优化;生成式奖励模型;过程监督奖励模型;
4.对齐范式探索:结合 RLHF、RLAIF、self-improve 等进行训练优化探索。职位要求【职位要求】
1. 2026届毕业,自然语言处理、机器学习、人工智能、软件工程等相关专业,硕士及以上学历;
2. 较强的算法开发能力,熟悉常用的机器学习、深度学习算法;
3. 熟练使用Pytorch、Huggingface、Megatron等框架;
4. 对Transformer的架构有较为深入的理解,了解Transformer的各种变体,有相关的研究经验者优先;
5. 具备优秀的代码能力和基础算法功底,有较为丰富的工程经验,有大规模训练经验或大规模数据处理经验。
加分项:
1. 在ACL,NeurIPS,ICLR,EMNLP,ICML等顶级会议或期刊上发表过论文者优先;
2. 熟悉并行训练框架,有多机多卡训练经验者优先;熟悉大模型预训练 / SFT / RL 者优先。 投递