Job Description

Al infra推理优化研究员

上海

社招

全职

互联网 / 电子 / 网游

职位 ID：A144366

职位描述

1. 下一代超节点系统探索:研究面向万亿参数大模型推理的超节点架构设计，开展多芯片互联、异构算力协同、分布式推理调度、内存层级与 10 优化等关键技术攻关，构建高吞吐、低时延、高密部署的下一代推理超节点仿真原型与评测体系。
2. 智能体驱动的算子生成研究:基于大模型与智能体技术，开展自动算子生成、算子融合、硬件感知代码生成与编译优化研究，构建自适应算子搜索与生产工具链，覆盖 GPU/NPU/ 国产AI 芯片，持续突破推理算子性能极限。
3. Alinfra 全栈优化技术研究:从模型、编译、运行时、系统与硬件协同层面开展推理全栈优化，包括模型压缩/量化、计算图优化、分布式推理、推理引擎与调度器设计、端云协同推理等，形成可工程化的技术方案与标准。
4. 研究与成果建设:跟踪国际顶会与产业前沿，独立设计研究路线、开展实验验证、发表高水平论文;参与技术标准制定、开源项目建设与产学研合作，推动研究成果转化为平台能力与业务竞争力。

职位要求

1. 基本条件:计算机、电子工程、自动化、人工智能等相关专业，硕士及以上学历;3-5 年及以上 Alinfra、推理优化、高性能计算或系统研发相关工作经验，优秀博士可放宽。
2. 核心能力:具备独立研究与课题主导能力，能自主定义问题、设计方案、完成实验与成果交付;有顶会论文(MLSyS/OSDI/NeUrIPS/ICML/ASPLOS 等)、知名开源项目贡献者优先。
3. 专业技能:
a. 深入理解计算机体系结构、操作系统、分布式系统、编译原理与并行计算;
b. 精通 C++/Python，熟悉 CUDA/Triton/MLIR/TVM/Torchinductor 等至少一种编译/算子栈;
c. 熟悉 PyTorch/TensorFlow 等框架与 vLLM/TensorRT/FasterTransformer 等推理引擎;
d. 熟悉大模型推理关键技术:量化、PagedAttention、FlashAttention、持续批处理、模型并行等。
4. 优先条件:
a. 有推理超节点、异构集群、大规模推理服务优化经验:
b. 有智能体/大模型代码生成、自动算子优化、编译器研发经验;
c. 有国产 AI 芯片(昇腾/寒武纪等)适配与优化经验;
d. 具备较强工程落地能力与跨团队协作能力。

职位信息

部门：未来技术中心

投递

About Infinigence AI

北京无问芯穹科技有限公司是一家专注于为 AI 2.0时代提供完整解决方案的科技公司。我们的愿景是"释放无穷算力，让 AGI 触手可及"，致力于成为大模型落地过程中的 "M×N" 中间层，为中国乃至全球人工智能产业的发展注入新的动力。

Industry

IT & Software

Company Size

1-10 employees

Headquarters

Unknown

Year Founded

Unknown

Website

infini-ai.com

Social Media