Job Description

【技术保障】模型推理优化专家杭州、上海全职互联网 / 电子 / 网游技术类职位描述推理性能优化
1. 对LLM在线推理全链路进行性能分析与瓶颈定位，针对性优化 TTFT、TPOT、吞吐等核心指标。
2. 深入调优推理引擎（vLLM/SGLang/TensorRT-LLM等），包括 KV Cache 管理、continuous batching、量化、推测解码等关键技术。
3. 结合业务 SLO 要求，设计推理部署方案（机型选型、并行策略、batch 策略等），在满足延迟约束的前提下最大化 GPU 利用率
平台工程与成本优化
1. 基于Kubernetes设计和落地 GPU 工作负载的调度策略，包括算力调度、虚拟化资源管理、拓扑感知、亲和性、HPA等。
2. 识别低利用率、低性价比算力选型等资源低效问题，推动资源整合与优化，降低单位推理成本。
3. 参与 AI 平台产品设计和研发，从工程角度出发不断优化推理服务管理模式和流程，提升用户体验和效率。
业务协同与降本增效
1. 与业务团队深度合作，理解其推理场景特征（模型大小、请求分布、延迟要求），提供定制化的优化方案，并推进落地
2. 推进推理性能与成本的可观测体系建设，在大语言模型推理场景践行FIinops理念。职位要求1. 具备扎实的 LLM 推理优化实战经验，能独立分析并优化TTFT、TPOT、吞吐等核心指标，有可量化的优化案例优先。
2. 深入理解至少一种主流推理框架（vLLM/SGLang/TensorRT-LLM/Triton等）的原理与调优方法。
3. 熟悉 Kubernetes 核心机制：调度器、资源模型、DevicePlugin机制、节点亲和性、HPA/KEDA等，有基于 Kubernetes 的 GPU 工作负载研发和运维经验。
4. 具备系统级性能分析能力，能使用 nsys、nvtop、perf、eBPF 等工具定位 GPU / CPU / 网络等瓶颈问题。投递

About 得物App

得物App致力于打造全球领先的新一代潮流网购社区。

正品潮流电商和潮流生活社区是平台的两大核心服务。得物App在传统电商模式的基础上添加"鉴别服务"，推出了"先鉴别，后发货"的购物流程，为国内的年轻消费者带来全新的购物体验，让用户可以放心购买到品类丰富的经鉴别为正品的潮流商品。目前得物App的商品品类已经覆盖潮鞋、服饰、手表、配饰、潮玩、3C数码、家居家电、美妆、汽车等。

同时作为年轻⼈的潮流生活社区，得物App聚集了一大批热爱球鞋、潮品穿搭和潮流文化的爱好者，通过持续沉淀潮流话题内容，得物App正在成为年轻用户的潮流风向标和发声阵地。

Industry

IT & Software

Company Size

501-1,000 employees

Headquarters

Shanghai, CN

Year Founded

2015

Website

dewu.com

Social Media