Job Description
日常实习-AI院-GLM后训练团队-算法实习生北京实习互联网 / 电子 / 网游 - 研发职位描述1. 高阶推理能力提升:针对DeepResearch、CodeAgent等复杂推理任务开发专门的能力提升方案;探索长思维链推理机制,提升模型在Agent相关任务上的表现和泛化能力;
2. 复杂推理训练扩展性研究:探索模型通过长思维链推理在Agent相关任务上的效果提升;实现不同- Agent任务间的能力迁移和扩展
3. 对齐训练范式探索:探索新型对齐训练范式,整合多类型监督信号进行训练优化;研究不同监督条件下的训练可扩展性,推动后训练效果向预训练scaling效果靠拢
4. 对齐数据构造与优化:针对特定能力领域(数学、代码、复杂推理等)进行数据构造、筛选和优化;设计数据合成策略,控制对齐数据的质量和多样性职位要求【职位要求】
1. 实习期安排:4-6个月(具体根据实习工作),每周实习5天(周一至周五)
2. 985高校计算机、电子、自动化等相关专业硕士或博士学位(优秀本科生亦可考虑)
3. 深入理解常用的大模型算法;具备后训练及数据处理相关项目经验者优先
4. 在CCF-A类会议发表过相关论文者优先考虑
5. 熟练运用Pytorch、transformers、megatron等主流框架
6. 工作态度认真负责,具备良好的团队协作能力
5. 【加分项】
6. 在ACL,NeurIPS,ICLR,EMNLP,ICML等顶级会议或期刊上发表过论文者优先;
7. 熟悉并行训练框架,有多机多卡训练经验者优先。
【简历投递】
8. 智谱官网直接投递
9. 邮箱投递:shuangshuang.wei@zhipuai.cn;邮件标题:职位名称+姓名+毕业时间 投递