Job Description
【智谱星】26届校招-强化学习算法工程师北京正式互联网 / 电子 / 网游职位描述【团队介绍】
我们是一支专注于 AIAgent 研发创新的技术与产品团队——智谱 AutoGLM。
团队成员来自多所国内外知名高校,覆盖人工智能、数据科学、软件工程等多个领域,具备丰富的算法创新研究、智能系统设计和产品落地经验。我们致力于打造智能、通用、可拓展的 AIAgent 应用产品与解决方案,赋能多领域行业的智能升级,为使用者带来全新的人机交互体验。
目前,基于技术团队在语言模型、多模态模型和工具使用等多方面努力的成果,AutoGLM 的使用场景覆盖手机、电脑、网页等多端设备,涵盖生活提效、深度研究等多个领域方向,并且能力持续提升中。同时,我们也等在内的多个领域客户展积极开展深入合作,不断推动产品的商业化落地与实际业务的深度融合。
工作职责:
1.负责 LLM 强化学习用于大模型智能体 GUI/API Agent 的模型整体优化,包括数据探索与增强、奖励模型优化、RL策略迭代及效果评估等,持续提升算法的效率与效果
2.强化学习技术前瞻探索,包括但不限于离线强化学习、环境模型学习、约束强化学习等方向
3.改进和完善大语言模型的强化学习的分布式工程框架,实现更高效的模型训练职位要求岗位基本需求:
1.扎实的算法基础,熟悉强化学习、自然语言处理和机器学习技术,对技术开发及应用有热情;
2.具备RL算法优化和工程项目实践经验,在ICML、NeurIPS、ICLR、JMLR、ACL、KDD等顶级会议或期刊上发表过论文,或在RL应用相关的大型比赛中获得名次;
3.了解 Agent 相关的前沿进展,并对于将强化学习应用在LLM Agent训练中感兴趣;有大语言模型算法优化和大规模分布式RL框架优化经验优先
4.良好的沟通能力和跨团队协作能力,能够梳理繁杂的工作并建立有效机制,推动上下游配合完成目标
岗位亮点:
1.能专注LLM底层算法和工程研发,利用强化学习与LLM解决大模型能力提升中的有实际价值的难题
2.加入一个专注技术研发的人工智能模型的团队,与各个方向的算法专家交流学习 投递