NPU编译器实习工程师
职位描述
1. 参与自研 NPU/RPU 编译器开发,完善前端、IR、优化 Pass、代码生成、运行时对接等模块。
2. 参与面向 NPU 的易编程 DSL 设计与实现,提升算子开发效率、表达能力和可维护性。
3. 对接 Triton、PyTorch、MLIR、TVM 等开源编程框架或编译生态,探索主流模型和算子在自研芯片上的落地路径。
4. 编写和优化 RPU 算子、DSL 算子、Triton 算子,包括矩阵计算、归约、Attention、激活函数、数据搬运等核心算子。
5. 参与算子性能分析与调优,包括内存访问、并行划分、数据布局、流水调度、指令生成等方向。
6. 建设编译器和算子相关测试,包括功能正确性测试、性能回归测试、端到端模型验证等。
7. 阅读和分析开源编译器、AI 框架、GPU/NPU 编程模型相关代码,为内部编译器和 DSL 设计提供参考。
职位要求
1. 计算机、电子、自动化、软件工程、数学等相关专业,硕士或博士在读。
2. 熟悉 C/C++ 或 Python,具备较好的工程实现能力和代码阅读能力。
3. 理解基本编译原理,包括词法/语法分析、IR、优化 Pass、代码生成中的至少一部分。
4. 对 AI 编译器、深度学习算子、GPU/NPU 编程、异构计算中的至少一个方向有兴趣或实践经验。
5. 熟悉 Linux 开发环境,能够使用 Git、CMake、脚本工具进行日常开发和调试。
6. 有较强的自驱力,愿意深入底层系统,能面对复杂工程问题持续定位、验证和改进。
## 加分项
1. 有 LLVM、MLIR、Triton、TVM、XLA、Halide、IREE 等编译器或 AI 编译框架经验。
2. 写过 CUDA、OpenCL、Triton、SIMD、DSP、NPU 或其他异构计算算子。
3. 熟悉 Transformer、Attention、GEMM、卷积、归约、LayerNorm、Softmax 等常见 AI 算子的实现与优化。
4. 有 PyTorch 自定义算子、模型部署、推理框架或端到端性能优化经验。
5. 了解计算机体系结构、缓存/片上存储、DMA、流水线、并行计算模型。
6. 有开源项目贡献、编译器课程项目、ACM/竞赛、系统方向科研经历者优先。
7. 有大模型辅助编程实践经验优先,包括使用 Cursor、Claude Code、Codex、GitHub Copilot 等工具进行代码阅读、功能开发、调试定位、测试生成或文档编写,并能对模型输出进行判断、验证和修正。
## 你将获得
1. 深入参与真实 NPU 芯片软件栈建设,而不是只做外围工具或 demo。
2. 接触编译器、DSL、算子库、运行时、AI 框架对接等完整技术链路。
3. 和有芯片、编译器、系统软件经验的工程师一起工作,获得高密度代码 Review 和技术指导。
4. 有机会把自己写的算子、Pass 或 DSL 功能用于真实模型和真实硬件场景。
5. 表现优秀者可转正。
投递