推理架构师
职位描述
1.主导大模型推理系统的整体架构设计
2.设计与优化高并发、低延迟推理服务架构
3.攻克推理性能瓶颈(首Token延迟、吞吐、显存)
4.制定推理优化技术路线,跟进前沿技术(投机解码、FlashDecoding等)
5.保障推理服务的稳定性、高可用与成本可控
职位要求
•5+ 年 AI 推理系统相关经验
•深入理解 vLLM、TensorRT-LLM、TGI 等推理框架
•精通 PagedAttention、Continuous Batching 等核心机制
•有大规模推理服务(QPS 1000+)的架构设计经验
•熟悉 Kubernetes、Docker 等容器化技术
•具备 SRE 能力,保障服务可用性
加分项:
•vLLM/TGI 核心贡献者
•TensorRT、CUDA 优化深度经验
•高并发推理系统实战经验
职位信息
投递