Job Description

强化学习闭环训练北京、上海、苏州全职智能制造 / 工业互联网 / 工业自动化职位描述工作内容
1. 熟悉强化学习（RL）、离线强化学习（Offline RL）、在线闭环训练、Policy Optimization等方向的核心算法，精通PPO、DQN、SAC等主流强化学习算法的代码实现、训练逻辑及调优方法。
2. 对智能辅助驾驶场景下的交互数据、决策数据、仿真数据进行预处理、分析和特征工程，挖掘数据中的交互规律和决策痛点，支撑强化学习闭环训练的效果提升。
3. 结合公司已有的辅助驾驶真实路测数据、仿真场景数据，构建强化学习闭环训练体系，对辅助驾驶决策/规划Policy进行finetune，优化决策的安全性、舒适性和高效性。
4. 与辅助驾驶规划/控制工程师、仿真工程师合作，搭建高效的强化学习闭环训练平台，确保训练后的Policy能够无缝集成到实际辅助驾驶系统，保障工程可行性和落地效果。
5. 跟踪强化学习、闭环训练、决策智能等领域的最新科研进展和技术趋势，探索离线强化学习、多智能体交互训练等前沿技术在辅助驾驶场景中的落地应用，解决实际业务中的决策优化问题。职位要求任职要求
1. 计算机科学、人工智能、自动化、机器人学或相关领域的985/211硕士以上学历。
2. 精通Python、C++或其它编程语言，具有扎实的数据结构和算法基础，熟练掌握强化学习相关代码编写和训练脚本开发。
3. 熟悉huggingface上的各种sota强化学习、决策模型项目，深入理解强化学习闭环训练的核心逻辑和工程实现细节。
4. 深入理解机器学习、深度学习、强化学习等人工智能核心技术，在强化学习闭环训练、辅助驾驶决策优化、Policy调优等相关领域有明确的项目经验。
5. 具备出色的分析问题和解决问题的能力，以及良好的团队合作精神。有责任心，能够适应快节奏的工作环境，并拥有良好的沟通能力。投递

About Momenta

We are committed to developing breakthrough artificial intelligence (“AI”) solutions to push beyond the frontier of possibilities today and significantly improve people’s quality of life. We leverage our AI capabilities to develop autonomous driving solutions to enhance safety, convenience, and efficiency of mobility.

We have pioneered a unique scalable path toward full autonomous driving by combining a data-driven approach with iterating algorithms – referred to as our “flywheel approach” - as well as a “two-leg” product strategy focusing on both Mpilot, our mass-production-ready highly autonomous driving solutions, and MSD (Momenta Self-Driving), our driving solution targeting full autonomy.

contact@momenta.ai

Industry

IT & Software

Company Size

501-1,000 employees

Headquarters

Suzhou City, CN

Year Founded

2016

Website

momenta.ai

Social Media