Job Description
推理优化工程师BeijingFull-timeR&D - AlgorithmResponsibilities负责优化 LLM 在生产环境中的推理性能、稳定性和资源效率,打造高效、低成本、可扩展的推理服务体系。
1. 推理优化与加速
(1)深入使用并优化 vLLM、TensorRT、SGLang 等推理框架。
(2)改进 KV 缓存机制(PagedAttention、Prefix Cache),提升多轮对话和长上下文推理效率。
2. 自动扩缩容与 GPU 调度
(1)基于 Kubernetes + HPA 构建自动化推理集群,实现高可用和按需扩容。
(2)集成 AIBRIX、Production-Stack、Prometheus 等监控平台,提升 GPU 资源利用率。
3. 推理微服务与架构优化
(1)设计并优化高并发推理 API,支持模型热更新、多租户部署与负载均衡。
(2)实现 Tracing、Error Handling,提升推理系统稳定性。
4. 持续部署与运维保障
(1)与平台团队协作,完善 CI/CD 流程(镜像构建、模型版本管理、灰度发布)。
(2)构建 SLA/SLO 监控体系,支持自动报警、自恢复与故障分析。
5. 跨团队协作
(1)参与推理平台技术选型,与算法、MLOps、后端团队合作优化 LLM 部署。
(2)规划 GPU 资源管理与成本控制,确保推理服务高效运行。Qualifications1. 熟练掌握 Python / Go / Bash,具备良好的工程实践和代码质量意识。
2. 精通 Kubernetes / Docker,具备生产环境容器调度运维经验。
3. 熟悉至少一种推理加速框架(vLLM、TensorRT 等)。
4. 理解 LLM 推理机制(KV cache、Prompt 处理 等)。
5. 具备线上服务优化经验,熟悉 Prometheus / Grafana 监控 和 成本控制。
6. 能够基于业务需求制定合理的 资源调度与扩缩容策略。
加分项:
1. 有 AIBRIX、Production-Stack 等GPU管理平台经验。
2. 具备千万级 token 级别推理优化经验 或 长上下文 / RAG 服务优化经验。
3. 熟悉 A100、H100、L40 等异构 GPU 部署方案。
4. 在推理加速开源项目有贡献或社区活跃度高。
5. 有从0-1搭建 LLM 推理平台经验,具备平台化思维。 Apply