后摩智能 HOUMO.AI

大模型量化算法研究与评测体系工程师 / 研究员

后摩智能 HOUMO.AI  •  Remote  •  1 month ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

大模型量化算法研究与评测体系工程师 / 研究员南京全职互联网 / 电子 / 网游职位描述主要负责面向自研芯片的大模型量化算法研究、工程实现与量化精度评估体系建设,支撑 LLM、VLM 及多模态大模型在低比特、高性能场景下的部署与持续迭代。
1.负责面向自研 AI 芯片的大模型量化算法研究与开发,包括但不限于 Weight-only 量化、Activation 量化、KV Cache 量化、混合精度量化、低比特量化、无标定 / 少标定量化等方向;
2.结合芯片计算特性、数据格式、访存结构和算子支持能力,设计适配硬件的量化方案,提升大模型在自研芯片上的推理效率与精度保持能力;
3.负责 LLM、VLM 及音视频多模态模型的量化精度评估体系建设,包括评测指标设计、评测集构建、评测流程自动化、误差分析与精度回归分析等;
4.搭建大模型量化评测框架,支持不同模型、不同量化算法、不同 bit-width、不同硬件后端之间的系统化对比评测;
5.负责量化算法在大模型推理链路中的落地验证,包括模型加载、算子替换、图优化、端到端性能分析、精度损失定位与优化;
6.构建面向业务场景的大模型量化评测体系,支持对话、代码、数学推理、视觉理解、多模态生成、音视频理解等任务的量化效果评估;
7.建设大规模快速分布式评测能力,支持大量模型版本、量化配置和芯片后端的自动化评测、结果管理与可视化分析;
8.参与量化评测平台研发,支持量化实验管理、评测任务调度、结果可视化、精度榜单发布和异常样本分析;
9.跟踪 GPTQ、AWQ、SmoothQuant、HQQ、QuaRot、SpinQuant、MXFP/FP8/INT4 等前沿量化算法和低精度计算技术,并结合自研芯片特点进行改进和创新。
职位要求任职要求
1.研究生及以上学历,计算机、电子信息、人工智能、自动化、数学等相关专业优先;
2.熟悉大模型基本结构与推理流程,了解 Transformer、Attention、MLP、KV Cache、Norm、Embedding 等核心模块;
3.熟悉大模型量化相关技术,包括 INT8、INT4、FP8、Weight-only 量化、PTQ、QAT、GPTQ、AWQ、SmoothQuant 等方法中的一种或多种;
4.具备较强的 PyTorch 编程能力,熟悉模型加载、前向推理、算子替换、模型精度评估和实验自动化流程;
5.熟悉大模型评测方法,了解通用评测集、业务评测集、多模态评测集的构建与使用方式;
6.具备良好的实验分析能力,能够定位量化后精度下降的原因,并从算法、数据、算子或硬件适配角度提出优化方案;
7.有大模型部署、推理加速、模型压缩、量化算法、AI 芯片适配、评测平台建设等相关实习或项目经验者优先;
8.代码能力强,具备良好的工程实现能力,能够独立完成算法原型、实验框架和评测工具开发;
9.具备良好的论文阅读、问题抽象和技术文档撰写能力。
加分项
1.有 GPTQ、AWQ、HQQ、SmoothQuant、QuaRot、SpinQuant、AutoRound 等量化算法复现或改进经验;
2.熟悉 vLLM、TensorRT-LLM、llama.cpp、transformers、AutoGPTQ、GPTQModel、llm-compressor 等推理或量化框架;
3.熟悉 CUDA / Triton / 自定义算子开发,或有 NPU、GPU、AI 加速器适配经验;
4.熟悉分布式评测、模型榜单系统、可视化评测平台、实验管理平台建设;
5.有 LLM / VLM / 多模态模型量化、部署、评测相关项目经验。 投递
后摩智能 HOUMO.AI

About 后摩智能 HOUMO.AI

后摩智能于2020年底成立,由吴强博士和多位国际顶尖学者和芯片工业界资深专家联合组建,专注于原创新型智能计算芯片及软硬件一体化平台的打造。

针对现有计算芯片架构中计算和存储分离所导致的芯片“存储墙”和性能瓶颈难题,后摩智能以国际前瞻的存算一体技术和存储工艺,致力于突破智能计算芯片性能及功耗瓶颈,加速人工智能普惠落地。其提供的大算力、低功耗的高能效比芯片及解决方案,可应用于泛机器人、无人小车等大边缘端,以及云端推理和训练。

Industry
Unknown
Company Size
11-50 employees
Headquarters
南京市, CN
Year Founded
2020
Social Media