Job Description

多模态强化学习算法实习生 (VLM Agentic RL 方向)北京实习互联网 / 电子 / 网游职位描述【岗位职责】
你将深入参与 VLM Agentic RL 的前沿探索工作，与团队及其他优秀实习生协作，共同攻克以下任务：
1、代码框架构建与深入理解：深入研究并掌握CogVLM（GLM-V）系列模型的基础架构，优化现有的RL训练与推理链路；
2、Agentic RL 框架搭建：负责搭建 VLM RL with Tools 的算法框架，实现模型在 Rollout 过程中对工具的自主调用与逻辑闭环；
3、算法方法创新：针对多步 RL 迭代中的核心难点和挑战，探索创新性 RL 架构，优化trace-level奖励分配策略，优化 PPO/GRPO/HRPO 等对齐算法；
4、模型训练与全链路优化：负责多模态 Agentic 数据的合成、模型迭代训练以及在主流 Benchmark（如 MMSearch, V*, Facts 等）上的性能测试与调优。职位要求【岗位要求】
教育背景： 985 高校计算机、电子、自动化等相关专业在读硕士或博士；
专业基础：深入理解常用的多模态算法（如 CLIP, ViT, LLaVA系列）及强化学习基础理论（PPO, DPO, GRPO 等）；
项目经验：具备多模态大模型、Agent 智能体或强化学习相关的实际项目经历；有VLM + Tool Use相关经验者优先考虑；
工程能力：熟练运用Megatron或DeepSpeed 等主流深度学习框架，具备优秀的编程习惯；
综合素质：具备较强的科研敏锐度，能够独立阅读并复现前沿论文；工作态度认真负责，具备良好的团队协作与沟通能力，能适应高强度的科研节奏。
【加分项】
在 CVPR, ICCV, NeurIPS, ICLR 等 CCF-A 类会议发表过多模态或 RL 相关论文。
【你将获得】
参与智谱 AI 最前沿的 VLM 研发进程，接触核心模型（CogVLM/GLM-4.5V）的训练细节；
充足的 H100/A100 算力资源支持，助力你的算法构想快速验证；
与顶尖 AI 科学家和工程大牛并肩作战的机会；
实习期间表现优秀的同学会获得转正机会。投递

About Z.ai

Z.ai is the AI company behind the GLM series models, dedicated to inspiring the development of AGI to benefit humanity.

Industry

IT & Software

Company Size

51-200 employees

Headquarters

Beijing, CN

Year Founded

Unknown

Website

zhipuai.cn

Social Media