得物App

【技术保障】模型推理优化专家

得物App  •  Onsite  •  1 month ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

【技术保障】模型推理优化专家杭州、上海全职互联网 / 电子 / 网游技术类职位描述推理性能优化
1. 对LLM在线推理全链路进行性能分析与瓶颈定位,针对性优化 TTFT、TPOT、吞吐等核心指标。
2. 深入调优推理引擎(vLLM/SGLang/TensorRT-LLM等),包括 KV Cache 管理、continuous batching、量化、推测解码等关键技术。
3. 结合业务 SLO 要求,设计推理部署方案(机型选型、并行策略、batch 策略等),在满足延迟约束的前提下最大化 GPU 利用率
平台工程与成本优化
1. 基于Kubernetes设计和落地 GPU 工作负载的调度策略,包括算力调度、虚拟化资源管理、拓扑感知、亲和性、HPA等。
2. 识别低利用率、低性价比算力选型等资源低效问题,推动资源整合与优化,降低单位推理成本。
3. 参与 AI 平台产品设计和研发,从工程角度出发不断优化推理服务管理模式和流程,提升用户体验和效率。
业务协同与降本增效
1. 与业务团队深度合作,理解其推理场景特征(模型大小、请求分布、延迟要求),提供定制化的优化方案,并推进落地
2. 推进推理性能与成本的可观测体系建设,在大语言模型推理场景践行FIinops理念。职位要求1. 具备扎实的 LLM 推理优化实战经验,能独立分析并优化TTFT、TPOT、吞吐等核心指标,有可量化的优化案例优先。
2. 深入理解至少一种主流推理框架(vLLM/SGLang/TensorRT-LLM/Triton等)的原理与调优方法。
3. 熟悉 Kubernetes 核心机制:调度器、资源模型、DevicePlugin机制、节点亲和性、HPA/KEDA等,有基于 Kubernetes 的 GPU 工作负载研发和运维经验。
4. 具备系统级性能分析能力,能使用 nsys、nvtop、perf、eBPF 等工具定位 GPU / CPU / 网络等瓶颈问题。 投递
得物App

About 得物App

得物App致力于打造全球领先的新一代潮流网购社区。

正品潮流电商和潮流生活社区是平台的两大核心服务。得物App在传统电商模式的基础上添加"鉴别服务",推出了"先鉴别,后发货"的购物流程,为国内的年轻消费者带来全新的购物体验,让用户可以放心购买到品类丰富的经鉴别为正品的潮流商品。目前得物App的商品品类已经覆盖潮鞋、服饰、手表、配饰、潮玩、3C数码、家居家电、美妆、汽车等 。

同时作为年轻⼈的潮流生活社区,得物App聚集了一大批热爱球鞋、潮品穿搭和潮流文化的爱好者 ,通过持续沉淀潮流话题内容,得物App正在成为年轻用户的潮流风向标和发声阵地。

Industry
IT & Software
Company Size
501-1,000 employees
Headquarters
Shanghai, CN
Year Founded
2015
Website
dewu.com
Social Media