Job Description
26届校招-训练Infra工程师北京正式互联网 / 电子 / 网游职位描述1. 参与训练框架研发与优化:协助团队进行大规模分布式训练框架的设计、实现与维护,支持复杂AI模型(如大语言模型、多模态模型)的高效训练。
2. 性能调优与效率提升:在导师指导下,优化训练过程中的内存管理、计算资源调度和分布式通信效率,提升训练速度和资源利用率。
3. 集成与适配先进技术:学习并应用业界前沿的训练加速技术(offload、动态分布式并行/流水线排布),确保框架的先进性和竞争力。
4. 支持算法研发与交付:与算法工程师紧密配合,提高训练效率,降低研发成本,提升交付能力。职位要求1. 基础技能:
- 熟练掌握 Python 和 C++ 编程语言,具备扎实的数据结构、算法和操作系统基础。
- 熟悉至少一种主流深度学习框架(如 PyTorch、TensorFlow),了解其基本实现原理和机制。
- 了解GPU编程(如 CUDA)或并行计算,有相关的课程项目或实验经验。
2. 专业知识:
- 对 Transformer 架构及主流大模型(如GPT、Llama等)的训练特性有基本理解。
- 了解分布式训练的基本原理(如数据并行、模型并行、流水并行)和常见挑战。
3. 加分之项(满足以下任一即可):
- 有分布式训练框架(如 DeepSpeed、Megatron-LM、PyTorch Lightning、FSDP等)的使用或初步研究经验。
- 了解大模型训练相关的优化技术,如混合精度训练、梯度 checkpoint、LoRA微调、量化感知训练等。
- 在相关领域的顶会或开源项目中有贡献或论文者优先。 投递