Job Description
算法工程师 - Agent BeijingFull-timeR&D - AlgorithmResponsibilities负责公司AI Agent方向的算法研究与落地工作,围绕个性化内容生成与长期记忆构建,将大模型训练技术(SFT、RL等)应用于Agent能力的持续提升,具体职责包括但不限于:
1. Agent架构设计:面向个性化内容生成和角色交互场景,设计并实现基于大语言模型的Agent架构;定义Agent的编排流程、工具调用(Tool Use)、反思(Reflection)等核心范式,使Agent能够基于用户画像和历史交互生成高度个性化的内容与回复
2. Agent训练与优化:运用SFT、RFT、PPO、DPO、GRPO等训练方法,针对Agent场景设计专项训练方案;构建Agent行为轨迹数据集,通过强化学习优化Agent的个性化生成质量、记忆调用准确性和多轮对话一致性
3. 训练环境设计:构建Agent训练所需的真实可执行交互环境(工具调用沙箱、用户模拟器、多轮对话场景等),定义状态空间、动作空间和反馈信号,为Agent提供高质量的训练闭环
4. 奖励建模:设计Agent专用的奖励函数与评估体系,针对个性化程度、内容一致性、记忆调用准确性、用户满意度等多维目标,结合过程奖励模型(PRM)、生成式奖励模型(GRM)以及个性化奖励模型(Personalized RM,基于用户偏好和交互历史动态调整奖励信号),实现对Agent行为链路的细粒度奖励,解决奖励稀疏、奖励欺骗等核心难题
5. 记忆与个性化系统:构建可解释、可迁移、可控的Agent记忆架构,支持用户偏好的长期建模与动态更新;实现记忆的版本化管理,支持精确遗忘(通过token删除)和跨模型迁移,保障个性化体验的连续性与可控性
6. 持续学习(Continual Learning):研究并实现Token Space下的持续学习机制,通过更新Agent的learned context(系统提示、记忆库、工具定义等)而非模型权重来实现Agent的持续进化;解决context poisoning(上下文污染)/ context rot(上下文退化)等有限上下文窗口下的记忆退化问题,在避免灾难性遗忘的前提下实现Agent知识的增量积累
8. 快速实验与迭代闭环:具备从eval构建、数据准备、方案实现到结果评估的全链路快速实验能力;参与Agent的线上A/B实验设计,通过线上效果度量和用户反馈分析定位算法瓶颈,驱动下一轮训练与模型优化的方向Qualifications1. 优秀的代码能力、数据结构和基础算法功底,熟练C/C++或Python,ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先;
2. 熟悉NLP相关的算法和技术,具备大模型训练和RL算法的实践经验;
3. 对LLM-based Agent系统有深入理解,具备Agent训练或Agent系统相关的项目经验;
4. 能系统性拆解Agent在长期记忆管理、个性化内容生成、上下文窗口利用等场景的挑战,提出创新解决方案;
5. 具备较强自驱力,能与产品、算法团队紧密协作,推动技术从研究到落地的全链路闭环。
加分项:
1. 在Agent记忆机制、个性化生成、持续学习、上下文优化(如DSPy等prompt optimization方法)等方向有论文成果;
2. 对continous learning、memory-augmented LLM、Agent环境/奖励设计等前沿方向有研究或实践经验;
3. 有构建Agent RL训练环境(可执行环境、用户模拟、工具调用仿真等)的实践经验。 Apply