Al infra推理优化研究员
上海社招全职互联网 / 电子 / 网游职位 ID:A144366 职位描述
1. 下一代超节点系统探索:研究面向万亿参数大模型推理的超节点架构设计,开展多芯片互联、异构算力协同、分布式推理调度、内存层级与 10 优化等关键技术攻关,构建高吞吐、低时延、高密部署的下一代推理超节点仿真原型与评测体系。
2. 智能体驱动的算子生成研究:基于大模型与智能体技术,开展自动算子生成、算子融合、硬件感知代码生成与编译优化研究,构建自适应算子搜索与生产工具链,覆盖 GPU/NPU/ 国产AI 芯片,持续突破推理算子性能极限。
3. Alinfra 全栈优化技术研究:从模型、编译、运行时、系统与硬件协同层面开展推理全栈优化,包括模型压缩/量化、计算图优化、分布式推理、推理引擎与调度器设计、端云协同推理等,形成可工程化的技术方案与标准。
4. 研究与成果建设:跟踪国际顶会与产业前沿,独立设计研究路线、开展实验验证、发表高水平论文;参与技术标准制定、开源项目建设与产学研合作,推动研究成果转化为平台能力与业务竞争力。
职位要求
1. 基本条件:计算机、电子工程、自动化、人工智能等相关专业,硕士及以上学历;3-5 年及以上 Alinfra、推理优化、高性能计算或系统研发相关工作经验,优秀博士可放宽。
2. 核心能力:具备独立研究与课题主导能力,能自主定义问题、设计方案、完成实验与成果交付;有顶会论文(MLSyS/OSDI/NeUrIPS/ICML/ASPLOS 等)、知名开源项目贡献者优先。
3. 专业技能:
a. 深入理解计算机体系结构、操作系统、分布式系统、编译原理与并行计算;
b. 精通 C++/Python,熟悉 CUDA/Triton/MLIR/TVM/Torchinductor 等至少一种编译/算子栈;
c. 熟悉 PyTorch/TensorFlow 等框架与 vLLM/TensorRT/FasterTransformer 等推理引擎;
d. 熟悉大模型推理关键技术:量化、PagedAttention、FlashAttention、持续批处理、模型并行等。
4. 优先条件:
a. 有推理超节点、异构集群、大规模推理服务优化经验:
b. 有智能体/大模型代码生成、自动算子优化、编译器研发经验;
c. 有国产 AI 芯片(昇腾/寒武纪等)适配与优化经验;
d. 具备较强工程落地能力与跨团队协作能力。
职位信息
投递