Job Description
多模态强化学习算法实习生 (VLM Agentic RL 方向)北京实习互联网 / 电子 / 网游职位描述【岗位职责】
你将深入参与 VLM Agentic RL 的前沿探索工作,与团队及其他优秀实习生协作,共同攻克以下任务:
1、代码框架构建与深入理解: 深入研究并掌握CogVLM(GLM-V)系列模型的基础架构,优化现有的RL训练与推理链路;
2、Agentic RL 框架搭建: 负责搭建 VLM RL with Tools 的算法框架,实现模型在 Rollout 过程中对工具的自主调用与逻辑闭环;
3、算法方法创新: 针对多步 RL 迭代中的核心难点和挑战,探索创新性 RL 架构,优化trace-level奖励分配策略,优化 PPO/GRPO/HRPO 等对齐算法;
4、模型训练与全链路优化: 负责多模态 Agentic 数据的合成、模型迭代训练以及在主流 Benchmark(如 MMSearch, V*, Facts 等)上的性能测试与调优。职位要求【岗位要求】
教育背景: 985 高校计算机、电子、自动化等相关专业在读硕士或博士;
专业基础: 深入理解常用的多模态算法(如 CLIP, ViT, LLaVA系列)及强化学习基础理论(PPO, DPO, GRPO 等);
项目经验: 具备多模态大模型、Agent 智能体或强化学习相关的实际项目经历;有VLM + Tool Use相关经验者优先考虑;
工程能力: 熟练运用Megatron或DeepSpeed 等主流深度学习框架,具备优秀的编程习惯;
综合素质: 具备较强的科研敏锐度,能够独立阅读并复现前沿论文;工作态度认真负责,具备良好的团队协作与沟通能力,能适应高强度的科研节奏。
【加分项】
在 CVPR, ICCV, NeurIPS, ICLR 等 CCF-A 类会议发表过多模态或 RL 相关论文。
【你将获得】
参与智谱 AI 最前沿的 VLM 研发进程,接触核心模型(CogVLM/GLM-4.5V)的训练细节;
充足的 H100/A100 算力资源支持,助力你的算法构想快速验证;
与顶尖 AI 科学家和工程大牛并肩作战的机会;
实习期间表现优秀的同学会获得转正机会。 投递