Job Description

AI院-GLM团队-后训练 RLHF 算法工程师（26届校招）北京正式研发 - 算法职位描述【团队介绍】
GLM 团队是国内最早从事大模型预训练的团队之一，在 2022 年就完成了千亿模型 GLM-130B 的预训练；GLM-4 在文本上的通用能力已经达到了国际第一梯队的水准；25年7月发布的GLM-4.5 首次在单个模型中实现将推理、编码和智能体能力原生融合，以满足智能体应用的复杂需求，取得了全球模型第三、国产模型第一，开源模型第一的成绩。团队具有充沛的计算资源，可以支持预训练方面的探索。
团队专注于大语言模型在“通用领域”的能力提升——涵盖对话、创作、角色扮演等领域，涵盖指令遵循、逻辑性、幻觉、情商等基础能力。随着模型应用场景的急速扩大，后训练（Post-training）阶段已成为决定模型最终体验的关键一环。团队目标是构建业内领先的后训练技术栈，提升模型的生成质量和稳定性。
【职位描述】
1.对齐数据优化；包括针对模型特定能力进行数据构造、筛选和优化，特定领域（如指令遵循、逻辑性、角色扮演）等数据筛选和合成；对齐数据的质量和多样性控制等；
2.后训练扩展性：探索模型如何通过思维链推理，在“通用领域”的任务上取得更优的效果；
3.强化学习算法优化：提升后训练 scaling 性能；多目标奖励模型优化；生成式奖励模型；过程监督奖励模型；
4.对齐范式探索：结合 RLHF、RLAIF、self-improve 等进行训练优化探索。职位要求【职位要求】
1. 2026届毕业，自然语言处理、机器学习、人工智能、软件工程等相关专业，硕士及以上学历；
2. 较强的算法开发能力，熟悉常用的机器学习、深度学习算法；
3. 熟练使用Pytorch、Huggingface、Megatron等框架；
4. 对Transformer的架构有较为深入的理解，了解Transformer的各种变体，有相关的研究经验者优先；
5. 具备优秀的代码能力和基础算法功底，有较为丰富的工程经验，有大规模训练经验或大规模数据处理经验。
加分项：
1. 在ACL，NeurIPS，ICLR，EMNLP，ICML等顶级会议或期刊上发表过论文者优先；
2. 熟悉并行训练框架，有多机多卡训练经验者优先；熟悉大模型预训练 / SFT / RL 者优先。投递

About Z.ai

Z.ai is the AI company behind the GLM series models, dedicated to inspiring the development of AGI to benefit humanity.

Industry

IT & Software

Company Size

51-200 employees

Headquarters

Beijing, CN

Year Founded

Unknown

Website

zhipuai.cn

Social Media