Job Description

算法工程师 - Agent BeijingFull-timeR&D - AlgorithmResponsibilities负责公司AI Agent方向的算法研究与落地工作，围绕个性化内容生成与长期记忆构建，将大模型训练技术（SFT、RL等）应用于Agent能力的持续提升，具体职责包括但不限于：
1. Agent架构设计：面向个性化内容生成和角色交互场景，设计并实现基于大语言模型的Agent架构；定义Agent的编排流程、工具调用（Tool Use）、反思（Reflection）等核心范式，使Agent能够基于用户画像和历史交互生成高度个性化的内容与回复
2. Agent训练与优化：运用SFT、RFT、PPO、DPO、GRPO等训练方法，针对Agent场景设计专项训练方案；构建Agent行为轨迹数据集，通过强化学习优化Agent的个性化生成质量、记忆调用准确性和多轮对话一致性
3. 训练环境设计：构建Agent训练所需的真实可执行交互环境（工具调用沙箱、用户模拟器、多轮对话场景等），定义状态空间、动作空间和反馈信号，为Agent提供高质量的训练闭环
4. 奖励建模：设计Agent专用的奖励函数与评估体系，针对个性化程度、内容一致性、记忆调用准确性、用户满意度等多维目标，结合过程奖励模型（PRM）、生成式奖励模型（GRM）以及个性化奖励模型（Personalized RM，基于用户偏好和交互历史动态调整奖励信号），实现对Agent行为链路的细粒度奖励，解决奖励稀疏、奖励欺骗等核心难题
5. 记忆与个性化系统：构建可解释、可迁移、可控的Agent记忆架构，支持用户偏好的长期建模与动态更新；实现记忆的版本化管理，支持精确遗忘（通过token删除）和跨模型迁移，保障个性化体验的连续性与可控性
6. 持续学习（Continual Learning）：研究并实现Token Space下的持续学习机制，通过更新Agent的learned context（系统提示、记忆库、工具定义等）而非模型权重来实现Agent的持续进化；解决context poisoning（上下文污染）/ context rot（上下文退化）等有限上下文窗口下的记忆退化问题，在避免灾难性遗忘的前提下实现Agent知识的增量积累
8. 快速实验与迭代闭环：具备从eval构建、数据准备、方案实现到结果评估的全链路快速实验能力；参与Agent的线上A/B实验设计，通过线上效果度量和用户反馈分析定位算法瓶颈，驱动下一轮训练与模型优化的方向Qualifications1. 优秀的代码能力、数据结构和基础算法功底，熟练C/C++或Python，ACM/ICPC、NOI/IOI、Top Coder、Kaggle等比赛获奖者优先；
2. 熟悉NLP相关的算法和技术，具备大模型训练和RL算法的实践经验；
3. 对LLM-based Agent系统有深入理解，具备Agent训练或Agent系统相关的项目经验；
4. 能系统性拆解Agent在长期记忆管理、个性化内容生成、上下文窗口利用等场景的挑战，提出创新解决方案；
5. 具备较强自驱力，能与产品、算法团队紧密协作，推动技术从研究到落地的全链路闭环。
加分项：
1. 在Agent记忆机制、个性化生成、持续学习、上下文优化（如DSPy等prompt optimization方法）等方向有论文成果；
2. 对continous learning、memory-augmented LLM、Agent环境/奖励设计等前沿方向有研究或实践经验；
3. 有构建Agent RL训练环境（可执行环境、用户模拟、工具调用仿真等）的实践经验。 Apply

About Kaon (prev. FlowGPT)

Bay Area–based company building an AI-native content platform.

Industry

Unknown

Company Size

11-50 employees

Headquarters

San Francisco

Year Founded

2023

Website

kaon.io

Social Media