Lieu : Sophia Antipolis, France
Thales est un leader mondial des hautes technologies spécialisé dans trois secteurs d’activité : Défense & Sécurité, Aéronautique & Spatial, et Cyber & Digital. Il développe des produits et solutions qui contribuent à un monde plus sûr, plus respectueux de l’environnement et plus inclusif. Le Groupe investit près de 4,5 milliards d’euros par an en Recherche & Développement, notamment dans des domaines clés de l’innovation tels que l’IA, la cybersécurité, le quantique, les technologies du cloud et la 6G. Thales compte près de 85 000 collaborateurs dans 65 pays.
Une réussite portée par notre excellence technologique, votre expérience et notre ambition partagée
Un package de rémunération attractif
Un développement des compétences en continu : parcours de formation, académies et communautés internes
Un environnement inclusif, bienveillant et respectant l’équilibre des collaborateurs
Un engagement sociétal et environnemental reconnu
Au coeur de la Silicon Valley de la région PACA, notre site regroupe nos activités développe des sonars de pointe équipant les sous-marins et les bâtiments de surface ainsi que des activités de services numériques. Pionnier dans le domaine des produits de simulation, le site mobilise une expertise approfondie en acoustique et en traitement du signal.
Nous recherchons un Ingénieur Site Reliability Engineer afin d'assurer un haut niveau de service et d'excellence opérationnelle pour le développement d'une solution télécom innovante et ambitieuse (forte disponibilité, contraintes de haute performance) déployée dans le cloud public.
Ce produit nécessite la mise en place d'une équipe SRE dédiée.
Fonctions Essentielles
Automatisation & Infrastructure as Code Concevoir, construire et maintenir une infrastructure évolutive en utilisant des outils tels que Terraform, Ansible et Kubernetes. Développer des pipelines CI/CD automatisés via GitLab pour réduire le travail manuel répétitif.
Disponibilité & Ingénierie de la Fiabilité Définir et surveiller les Objectifs de Niveau de Service (SLO) et les Indicateurs de Niveau de Service (SLI). Gérer les "Error Budgets" afin d'équilibrer la vitesse d'intégration des nouvelles fonctionnalités avec la stabilité de la plateforme.
Gestion des Incidents & Support en Astreinte Participer aux rotations d’astreinte 24/7 pour fournir une réponse d’urgence et effectuer des diagnostics approfondis des problèmes en production.
Performance & Planification de la Capacité Réaliser des analyses de performance système, identifier les goulets d’étranglement et planifier la capacité pour garantir que l’infrastructure supporte la croissance et les pics de charge.
Observabilité & Monitoring Mettre en œuvre et affiner les alertes basées sur les symptômes et des stratégies de surveillance complètes en utilisant des plateformes comme Datadog, afin d’assurer une visibilité élevée sur la santé du système.
Amélioration Continue & Postmortems Animer des revues sans blâme après incidents pour identifier les causes profondes et mettre en place des corrections techniques pérennes afin de prévenir la récurrence.
Sécurité & Conformité Collaborer avec les équipes de sécurité cloud pour appliquer les bonnes pratiques de sécurité, gérer les contrôles d’accès et répondre aux incidents ou vulnérabilités de sécurité.
Support de la relation client
Interface avec d’autres parties prenantes pour définir un plan d’amélioration de la solution
Vous aurez la responsabilité de la disponibilité du service de la solution.
Votre Profil
Formation Ingénieur ou équivalent vous disposez :
Au moins 5 ans d'expérience en tant que SRE
Compétences en développement Java requises.
Vous êtes familier avec le Cloud Public (GCP, AWS), les conteneurs et microservices (Docker, Kubernetes, Java), CI/CD et automatisation (Jenkins, GitLab, Helm), bases de données NoSQL.
Vous êtes fluent en anglais.
Certification :
La certification Architecte Cloud GCP est un plus.
Vous avez déjà mis en place la surveillance produit et l’infrastructure sous-jacente.
Vous avez une expérience de développement dans un contexte de systèmes distribués et/ou de haute disponibilité.
Vous êtes familier avec le développement de microservices.
Vous avez participé à la définition d’architectures, structures de données, algorithmes avec des contraintes de performance, sécurité, fiabilité, etc.
Certification architecte cloud public.
Vous vous intéressez aux aspects Site Reliability Engineer : CI/CD, automatisation, monitoring et observabilité, amélioration continue.
Vous êtes un ingénieur développeur accompli, polyvalent et capable de gérer plusieurs tâches.
Thales, entreprise Handi-Engagée, reconnait tous les talents. La diversité est notre meilleur atout. Postulez et rejoignez nous !

Thales (Euronext Paris: HO) is a global leader in advanced technologies for the Defence, Aerospace, and Cyber & Digital sectors. Its portfolio of innovative products and services addresses several major challenges: sovereignty, security, sustainability and inclusion.
The Group invests more than €4 billion per year in Research & Development in key areas, particularly for critical environments, such as Artificial Intelligence, cybersecurity, quantum and cloud technologies.
Thales has more than 83,000 employees in 68 countries. In 2024, the Group generated sales of €20.6 billion.