Job Description

【智谱星】26届校招-强化学习算法工程师北京正式互联网 / 电子 / 网游职位描述【团队介绍】
我们是一支专注于 AIAgent 研发创新的技术与产品团队——智谱 AutoGLM。
团队成员来自多所国内外知名高校，覆盖人工智能、数据科学、软件工程等多个领域，具备丰富的算法创新研究、智能系统设计和产品落地经验。我们致力于打造智能、通用、可拓展的 AIAgent 应用产品与解决方案，赋能多领域行业的智能升级，为使用者带来全新的人机交互体验。
目前，基于技术团队在语言模型、多模态模型和工具使用等多方面努力的成果，AutoGLM 的使用场景覆盖手机、电脑、网页等多端设备，涵盖生活提效、深度研究等多个领域方向，并且能力持续提升中。同时，我们也等在内的多个领域客户展积极开展深入合作，不断推动产品的商业化落地与实际业务的深度融合。
工作职责:
1.负责 LLM 强化学习用于大模型智能体 GUI/API Agent 的模型整体优化，包括数据探索与增强、奖励模型优化、RL策略迭代及效果评估等，持续提升算法的效率与效果
2.强化学习技术前瞻探索，包括但不限于离线强化学习、环境模型学习、约束强化学习等方向
3.改进和完善大语言模型的强化学习的分布式工程框架，实现更高效的模型训练职位要求岗位基本需求:
1.扎实的算法基础，熟悉强化学习、自然语言处理和机器学习技术，对技术开发及应用有热情;
2.具备RL算法优化和工程项目实践经验，在ICML、NeurIPS、ICLR、JMLR、ACL、KDD等顶级会议或期刊上发表过论文，或在RL应用相关的大型比赛中获得名次;
3.了解 Agent 相关的前沿进展，并对于将强化学习应用在LLM Agent训练中感兴趣；有大语言模型算法优化和大规模分布式RL框架优化经验优先
4.良好的沟通能力和跨团队协作能力，能够梳理繁杂的工作并建立有效机制，推动上下游配合完成目标
岗位亮点:
1.能专注LLM底层算法和工程研发，利用强化学习与LLM解决大模型能力提升中的有实际价值的难题
2.加入一个专注技术研发的人工智能模型的团队，与各个方向的算法专家交流学习投递

About Z.ai

Z.ai is the AI company behind the GLM series models, dedicated to inspiring the development of AGI to benefit humanity.

Industry

IT & Software

Company Size

51-200 employees

Headquarters

Beijing, CN

Year Founded

Unknown

Website

zhipuai.cn

Social Media