Job Description
AI院--多模态团队--音频算法工程师北京全职互联网 / 电子 / 网游职位描述1. 负责agent场景下的多模态理解、生成算法研究、训练、应用,包括但不限于context-aware ASR、指令控制TTS、omni understanding等
2. 负责模型的多机多卡训练、高性能推理等
职位要求1. 硕士及以上学历,计算机、数学、通信等相关专业;具备良好的学习能力、逻辑思维能力、沟通协作能力;
2. 有三年及以上语音合成、语音识别算法经验,或三篇及以上顶会论文(各类CCF-A会、ICASSP/INTERSPEECH等);
3. 熟练使用Python和Pytorch/Tensorflow深度学习框架;
4. 对以下至少一种熟悉并有相关经验:
1)语音大模型的框架&理论,包括但不限于Diffusion、Vall-E/SpearTTS/AudioLM、MusicLM;
2)音频理解大模型/ASR大模型,包括但不限于qwen-audio、sensevoice、whisper等;
3)熟悉omni多模态大模型,包括但不限于qwen-omni、mimo-omni、Step‑Audio、Covo‑Audio等;
4)有业务落地工程经验优先。 投递