Z.ai

AI院-多模态音频-算法实习生

Z.ai  •  Onsite  •  4 months ago
Apply
AI can make mistakes so check important info. Chat history is never stored.

Job Description

AI院-多模态音频-算法实习生北京实习互联网 / 电子 / 网游职位描述【团队介绍】
智谱多模态大模型团队是全球领先的多模态研究团队之一,专注于推动视觉语言大模型的认知与推理能力的突破。团队拥有从多模态理解到生成的全栈自研技术体系,依托强大的计算资源和全链路研发能力,持续引领行业创新。
团队先后开源CogVLM、CogAgent等标杆级视觉理解模型,并推出CogView、CogVideo等前沿生成模型。最新发布的GLM-4.1V-Thinking创新性地引入思维链推理机制,采用课程采样强化学习策略,系统性提升模型跨模态因果推理能力与稳定性,其轻量版GLM-4.1V-9B-Thinking模型参数控制在10B级别,在28项权威评测中,有23项达成10B级模型的最佳成绩,其中18项更是持平或超越参数量高达72B的Qwen-2.5-VL。近期开源的GLM-4.5V(总参数106B,激活参数12B)更是在100B级视觉推理模型中树立起新的标杆。
1. 从事音频算法研究、训练、应用,具体业务包括Omni-音频理解、同声传译、video-audio联合生成等
2. 探索语音/音频技术前沿技术,探索音频理解、音频表征、音视频联合生成的新范式
3. 负责模型的多机多卡训练、高性能推理、数据集构建、评测系统搭建等职位要求【职位要求】
1. 自然语言处理、机器学习、人工智能、软件工程等相关专业,硕士及以上学历;
2. 较强的算法开发能力,熟悉常用的机器学习、深度学习算法;
3. 熟练使用Python和Pytorch/Tensorflow深度学习框架;
4. 熟悉以下至少一种,且有相应研发经验优先,大模型的框架&理论(如Diffusion、Vall-E/SpearTTS/AudioLM、MusicLM等);
5. 具备优秀的代码能力和基础算法功底,有较为丰富的工程经验,有大规模训练经验或大规模数据处理经验。
加分项:
1. 在ACL,NeurIPS,ICLR,EMNLP,ICML等顶级会议或期刊上发表过论文者优先;
2. 熟悉并行训练框架,有多机多卡训练经验者优先。 投递
Z.ai

About Z.ai

Z.ai is the AI company behind the GLM series models, dedicated to inspiring the development of AGI to benefit humanity.

Industry
IT & Software
Company Size
51-200 employees
Headquarters
Beijing, CN
Year Founded
Unknown
Social Media