Job Description

推理优化工程师BeijingFull-timeR&D - AlgorithmResponsibilities负责优化 LLM 在生产环境中的推理性能、稳定性和资源效率，打造高效、低成本、可扩展的推理服务体系。
1. 推理优化与加速
（1）深入使用并优化 vLLM、TensorRT、SGLang 等推理框架。
（2）改进 KV 缓存机制（PagedAttention、Prefix Cache），提升多轮对话和长上下文推理效率。
2. 自动扩缩容与 GPU 调度
（1）基于 Kubernetes + HPA 构建自动化推理集群，实现高可用和按需扩容。
（2）集成 AIBRIX、Production-Stack、Prometheus 等监控平台，提升 GPU 资源利用率。
3. 推理微服务与架构优化
（1）设计并优化高并发推理 API，支持模型热更新、多租户部署与负载均衡。
（2）实现 Tracing、Error Handling，提升推理系统稳定性。
4. 持续部署与运维保障
（1）与平台团队协作，完善 CI/CD 流程（镜像构建、模型版本管理、灰度发布）。
（2）构建 SLA/SLO 监控体系，支持自动报警、自恢复与故障分析。
5. 跨团队协作
（1）参与推理平台技术选型，与算法、MLOps、后端团队合作优化 LLM 部署。
（2）规划 GPU 资源管理与成本控制，确保推理服务高效运行。Qualifications1. 熟练掌握 Python / Go / Bash，具备良好的工程实践和代码质量意识。
2. 精通 Kubernetes / Docker，具备生产环境容器调度运维经验。
3. 熟悉至少一种推理加速框架（vLLM、TensorRT 等）。
4. 理解 LLM 推理机制（KV cache、Prompt 处理等）。
5. 具备线上服务优化经验，熟悉 Prometheus / Grafana 监控和成本控制。
6. 能够基于业务需求制定合理的资源调度与扩缩容策略。
加分项：
1. 有 AIBRIX、Production-Stack 等GPU管理平台经验。
2. 具备千万级 token 级别推理优化经验或长上下文 / RAG 服务优化经验。
3. 熟悉 A100、H100、L40 等异构 GPU 部署方案。
4. 在推理加速开源项目有贡献或社区活跃度高。
5. 有从0-1搭建 LLM 推理平台经验，具备平台化思维。 Apply

About Kaon (prev. FlowGPT)

Bay Area–based company building an AI-native content platform.

Industry

Unknown

Company Size

11-50 employees

Headquarters

San Francisco

Year Founded

2023

Website

kaon.io

Social Media