Job Description
Monitoreo y operación
Monitoreo proactivo de aplicaciones e infraestructura usando New Relic (APM, Infra, Logs, Synthetics, Dashboards, Alerts).
Análisis de tendencias y degradaciones antes de que se conviertan en incidentes.
Ajuste y optimización continua de umbrales de alertas para reducir falsos positivos.
Validación diaria de dashboards críticos y flujos de negocio.
Gestión de incidentes
Triage y análisis de incidentes.
Escalamiento temprano y con criterio, presentando evidencia clara (impacto, métricas, riesgos).
Coordinación con equipos internos (aeroméxico) y vendors hasta la resolución.
Asegurar que ningún incidente se cierre sin análisis, documentación y conclusiones claras.
Comunicación con cliente
Comunicación proactiva, estructurada y continua durante incidentes.
Envío de actualizaciones claras: qué pasa, impacto, acciones tomadas y next steps.
Participación activa en sesiones de bridge y updates al cliente.
Documentación y mejora continua
Documentación completa de incidentes en ServiceNow (timeline, causa raíz, acciones tomadas).
Elaboración y mantenimiento de SOPs y checklists operativos.
Participación en RCA / postmortems y seguimiento a acciones correctivas y preventivas.
Propuesta e implementación de mejoras en observabilidad y automatización (deseable con IA)
Eventos especiales (Venta Azul, Buen Fin, etc.)
Preparación previa (health checks, validación de alertas, dashboards y formato de reportes).
Participación en checkpoints.
Reporteo continuo (a solicitud del cliente)
Comunicación periódica con cliente durante la ventana del evento.
Al menos 2 en soporte, monitoreo y operación de aplicaciones productivas.
Análisis de logs, troubleshooting de aplicaciones.
Alta proactividad y sentido de urgencia.
Ownership total de incidentes y seguimiento.
Comunicación clara, estructurada y orientada a negocio.
Capacidad para anticipar riesgos y proponer soluciones.
Liderazgo operativo en situaciones críticas.
Enfoque a mejora continua y satisfacción del cliente.